As diferenças entre números distribuídos uniformemente são distribuídas uniformemente?


22

Nós rolamos um dado de 6 lados um grande número de vezes.

Calculando a diferença (valor absoluto) entre um rolo e o rolo anterior, espera-se que as diferenças sejam distribuídas uniformemente?

Para ilustrar com 10 rolos:

roll num  result diff
1           1     0
2           2     1
3           1     1
4           3     2
5           3     0
6           5     2
7           1     4
8           6     5
9           4     2
10          4     0

Os diffvalores seriam distribuídos uniformemente?


13
Crie um histograma para, pelo menos, ter uma noção
gunes


Isso parece lição de casa ....
Manu H

@Manu H, garanto que os dias de lição de casa estão muito atrasados
HeyJude

Respostas:


37

Não, não é uniforme

Você pode contar as possibilidades igualmente prováveis ​​para as diferenças absolutas36

     second 1   2   3   4   5   6
first                           
1           0   1   2   3   4   5
2           1   0   1   2   3   4
3           2   1   0   1   2   3
4           3   2   1   0   1   2
5           4   3   2   1   0   1
6           5   4   3   2   1   0

que fornece uma distribuição de probabilidade para as diferenças absolutas de

0    6/36  1/6
1   10/36  5/18
2    8/36  2/9
3    6/36  1/6
4    4/36  1/9
5    2/36  1/18

27
@onurcanbektas A tabela nesta resposta contradiz claramente sua afirmação: por exemplo, mostra que apenas uma das diferenças possíveis é 5, enquanto 6 delas são 0. Como todas as 36 possibilidades são igualmente prováveis, isso não é uniforme.
whuber

13
@onurcanbektas Convido-vos mais uma vez a contemplar a mesa. Como ele possui apenas duas diferenças absolutas de 5, não é óbvio que não mais que duas diferenças possam ser iguais a 5?
whuber

14
@onurcanbektas Para diferenças simples (ou seja, com sinais, portanto, números inteiros de -5 a +5), a distribuição é uma distribuição triangular discreta simétrica com o modo (valor mais provável) em 0. Para diferenças absolutas, como mostrado na minha resposta, o modo é 1.
Henry

2
Pode ser interessante notar que a diferença assinada módulo 6 é distribuída uniformemente.
Federico Poloni

2
@FedericoPoloni Isso não é trivialmente óbvio? Quero dizer, eu realmente nunca pensei sobre isso, antes de ler o comentário, mas é bastante óbvio que isso simplesmente tem que ser verdade
Cruncher

21

Usando apenas os axiomas mais básicos sobre probabilidades e números reais, pode-se provar uma afirmação muito mais forte:

A diferença de quaisquer dois valores aleatórios não constantes independentes e distribuídos de forma idêntica XY nunca possui uma distribuição uniforme e discreta.

(Uma declaração análoga para variáveis ​​contínuas é comprovada no PDF uniforme da diferença de dois rv .)

A idéia é que a chance de XY ser um valor extremo deve ser menor do que a chance de XY ser zero, porque há apenas uma maneira de (por exemplo) maximizar XY enquanto existem muitas maneiras de fazer a diferença zero. , porque X e Y têm a mesma distribuição e, portanto, podem ser iguais. Aqui estão os detalhes.

Primeiro, observe que as duas variáveis ​​hipotéticas X e Y em questão podem atingir apenas um número finito n de valores com probabilidade positiva, porque haverá pelo menos n diferenças distintas e uma distribuição uniforme atribui todas as mesmas probabilidades. Se n é infinito, então seria o número de possíveis diferenças com probabilidade igual e positiva, de onde a soma de suas chances seria infinita, o que é impossível.

Ymq=Pr(Y=m)XMp=Pr(X=M).XY

(*)Pr(XY=Mm)=Pr(X=M)Pr(Y=m)=pq>0.

Por último , porque e têm a mesma distribuição, há muitas maneiras as suas diferenças podem produzir o valor Entre estas formas são os casos em que e Como essa distribuição é inconstante, difere de Isso mostra que esses dois casos são eventos disjuntos e, portanto, devem contribuir com pelo menos uma quantidade para a chance de ser zero; isso é,XY0.X=Y=mX=Y=M.mM.p 2 + q 2 X - Yp2+q2XY

Pr(XY=0)Pr(X=Y=m)+Pr(X=Y=M)=p2+q2.

Como os quadrados dos números não são negativos, onde deduzimos de que0(pq)2,()

Pr(XY=Mm)=pqpq+(pq)2=p2+q2pq<p2+q2Pr(XY=0),

mostrando a distribuição de não é uniforme, QED.XY

Editar em resposta a um comentário

Uma análise semelhante das diferenças absolutasobserva que, porque e têm a mesma distribuição,Isso exige que estudemosA mesma técnica algébrica produz quase o mesmo resultado, mas existe a possibilidade de eEsse sistema de equações tem a solução única|XY|XYm=M.Pr(XY=|Mm|)=2pq.2pq=2pq+(pq)22pq+p2+q2=1.p=q=1/2correspondente a uma moeda justa (um "dado de duas faces"). Para além desta exceção, o resultado para as diferenças absolutas é o mesmo que para as diferenças e pelas mesmas razões subjacentes já indicadas: a saber, as diferenças absolutas de duas variáveis ​​aleatórias iid não podem ser distribuídas uniformemente sempre que houver mais de duas diferenças distintas com probabilidade positiva.

(fim da edição)


Vamos aplicar esse resultado à pergunta, que pergunta sobre algo um pouco mais complexo.

Modele cada rolagem independente do dado (que pode ser um dado injusto ) com uma variável aleatória As diferenças observadas nesses rolos são os números Podemos nos perguntar como esses números são distribuídos uniformemente . Essa é realmente uma pergunta sobre as expectativas estatísticas: qual é o número esperado de iguais a zero, por exemplo? Qual é o número esperado de igual a ? Etc etc.Xi, i=1,2,,n.nΔXi=Xi+1Xi.n1ΔXiΔXi1

O aspecto problemático dessa pergunta é que o não é independente: por exemplo, e envolvem o mesmo roloΔXiΔX1=X2X1ΔX2=X3X2X2.

No entanto, isso não é realmente uma dificuldade. Como a expectativa estatística é aditiva e todas as diferenças têm a mesma distribuição, se escolhermos qualquer valor possível das diferenças, o número esperado de vezes que a diferença é igual a em toda a sequência de rolos é vezes o número esperado de vezes a diferença é igual a em uma única etapa do processo. Essa expectativa de etapa única é (para qualquer ). Essas expectativas serão as mesmas para todos os (ou seja, uniformes ) se e somente se forem iguais para um únicokknn1kPr(ΔXi=k)ikΔXi. Mas vimos que nenhum tem uma distribuição uniforme, mesmo quando o dado pode ser tendencioso. Assim, mesmo nesse sentido mais fraco de frequências esperadas, as diferenças dos testes não são uniformes.ΔXi


@ Michael Bom ponto: eu respondi a pergunta como solicitado (que é sobre "diferenças"), e não como ilustrado (que claramente se refere a diferenças absolutas). A mesma técnica se aplica - basta considerar as diferenças máximas e mínimas. No caso em que essas são as duas únicas possibilidades (junto com zero), podemos obter igualdade, e é daí que o resultado de Bernoulli vem (mostrando que é o único exemplo). (1/2)
whuber

Outra resposta que prova uma versão específica disso está aqui .
Restabeleça Monica

Obrigado, @ Ben: eu tinha esquecido essa discussão. Por ser uma referência melhor, agora vinculo diretamente a ela nesta resposta.
whuber

12

Em um nível intuitivo, um evento aleatório só pode ser distribuído uniformemente se todos os seus resultados forem igualmente prováveis.

Isso é verdade para o evento aleatório em questão - diferença absoluta entre dois lançamentos de dados?

Neste caso, basta olhar para os extremos - quais são os maiores e menores valores que essa diferença pode levar?

Obviamente, 0 é o menor (estamos vendo diferenças absolutas e as jogadas podem ser as mesmas) e 5 é o maior ( 6vs 1).

Podemos mostrar que o evento não é uniforme, mostrando que 0é mais (ou menos) provável que ocorra do que 5.

À primeira vista, existem apenas duas maneiras de ocorrer 5 - se o primeiro dado for 6 e o ​​segundo 1, ou vice-versa . Quantas maneiras 0 podem ocorrer?


1
+1 Acho que isso chega ao cerne da questão. Publiquei uma generalização da questão que, em última análise, se baseia na mesma observação.
whuber

5

Conforme apresentado por Henry, diferenças de distribuições uniformemente distribuídas não são uniformemente distribuídas.

Para ilustrar isso com dados simulados, podemos usar um script R muito simples:

barplot(table(sample(x=1:6, size=10000, replace=T)))

insira a descrição da imagem aqui

Vemos que isso produz de fato uma distribuição uniforme. Vamos agora dar uma olhada na distribuição das diferenças absolutas de duas amostras aleatórias dessa distribuição.

barplot(table(abs(sample(x=1:6, size=10000, replace=T) - sample(x=1:6, size=10000, replace=T))))

insira a descrição da imagem aqui


6
Por que isso tem algo a ver com o CLT, que diz respeito à distribuição assintótica de médias de grandes números de valores de IDI?
whuber

2
Eu gosto da conexão que você fez originalmente com o CLT . Seja o número de amostras a serem adicionadas (ou subtraídas) da distribuição uniforme original. CLT implica que, para grandes a distribuição tenderá ao normal. Por sua vez, isso implica que a distribuição não pode permanecer uniforme para , como que é o que o OP está pedindo. (Se este não é auto-explicativo, considerar que, se a soma foram uniformemente distribuída quando , reindexing implicaria que também é uniforme quando , etc, incluindo para grande .)nnn>1n=2n=2n=4n
krubo

3
@Krubo A pergunta original pergunta sobre a distribuição das diferenças entre as jogadas sucessivas de um dado. A CLT não tem nada a dizer sobre isso. De fato, não importa quantas vezes o dado seja rolado, a distribuição dessas diferenças não se aproximará da normalidade.
whuber

Essa distribuição tende a ser uniforme à medida que o número de faces da matriz tende ao infinito? Não sei como mostrar isso, mas intuitivamente parece que ele segue nessa direção, mas eu não sei se ele fica assintoticamente "bloqueado" em algum lugar antes de achatar o suficiente
Cruncher

@Cruncher, você pode alterar facilmente o número de faces de matriz no Código R. Quanto mais rostos existem, mais aparente fica a natureza das escadas da distribuição. '1' é sempre o pico dessa escada e, com maiores diferenças, as probabilidades se aproximam de zero. Além disso, a diferença de '0' é nitidamente mais rara que '1'. (pelo menos se o menor valor do dado for '1')
LuckyPal

2

Outros já trabalharam nos cálculos, eu darei uma resposta que me parece mais intuitiva. Você deseja estudar a soma de dois unifrom rv (Z = X + (-Y)), a distribuição geral é o produto de convolução (discreto):

P(Z=z)=k=P(X=k)P(Y=zk)

Essa soma é bastante intuitiva: a probabilidade de obter é a soma das probabilidades de obter algo com X (observado aqui) e o complemento de com -Y.zkz

Do processamento do sinal, sabemos como o produto de convolução se comporta:

  • O produto da convolução de duas funções uniformes (dois retângulos) dará um triângulo. Isso é ilustrado pela wikipedia para funções contínuas:

insira a descrição da imagem aqui

  • Você pode entender o que acontece aqui: à medida que move para cima (a linha pontilhada vertical), o domínio comum de ambos os retângulos se move para cima e para baixo, o que corresponde à probabilidade de obter .zz

  • Em geral, sabemos que as únicas funções que são estáveis ​​por convolução são as da família gaussiana. ou seja, apenas a distribuição gaussiana é estável por adição (ou mais geralmente, combinação linear). Isso também significa que você não recebe uma distribuição uniforme ao combinar distribuições uniformes.

Quanto ao motivo pelo qual obtemos esses resultados, a resposta está na decomposição de Fourrier dessas funções. A transformação de Fourrier de um produto de convolução é o produto simples das transformações de Fourrier de cada função. Isso fornece links diretos entre os coeficientes de quatro camadas das funções retângulo e triângulo.


Verifique a validade de suas reivindicações e a lógica de sua resposta. A questão não é se a convolução de duas distribuições uniformes é uniforme: é se a convolução de alguma distribuição e sua reversão podem ser uniformes. E há muito mais famílias distributivas do que as gaussianas que são estáveis ​​sob convolução (padronização do módulo, é claro): ver en.wikipedia.org/wiki/Stable_distribution
whuber

Você está certo sobre distribuições estáveis. Para a pergunta, tenho certeza de que se trata da diferença de dois valores aleatórios com distribuição uniforme (conforme indicado pelo título). A questão de saber se a convolução de alguma distribuição e sua reversão pode ser uniforme é maior do que o que é perguntado aqui.
lcrmorin

1

Se e são duas jogadas de dados consecutivos, você pode visualizar (para ), conforme a seguir, onde cada cor corresponde a um valor diferente de :xy|xy|=kk=0,1,2,3,4,5k

dados consecutivos rolam visualização da diferença

Como você pode ver facilmente, o número de pontos para cada cor não é o mesmo; portanto, as diferenças não são distribuídas uniformemente.


0

Seja denotado a diferença e o valor do rolo, então DtXP(Dt=5)=P(Xt=6,Xt1=1)<P((Xt,Xt1){(6,3),(5,2)})<P(Dt=3)

Portanto, a função não é constante em . Isso significa que a distribuição não é uniforme.P(Dt=d)d

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.