Como você calcula a função de densidade de probabilidade do máximo de uma amostra de variáveis ​​aleatórias uniformes do IID?


45

Dada a variável aleatória

Y=max(X1,X2,,Xn)

onde Xi são variáveis ​​uniformes do IID, como faço para calcular o PDF de Y ?


4
Se for um dever de casa, leia as Perguntas frequentes e atualize sua pergunta.
cardeal

Pode-se usar a identidade de Vandermonde para mostrar uma função conjunta de 2 ordens As estatísticas dizem F_y (r) * G_y (r)?
Larry mintz

Fora de interesse, que curso cobre esse tipo de problema? Não foi algo que encontrei no meu curso de probabilidade de engenharia.
Alex

@ Alex Que tal um curso de estatística que cubra a reamostragem?
SOFe

Respostas:


65

É possível que essa pergunta seja lição de casa, mas eu senti que essa pergunta clássica de probabilidade elementar ainda não tinha uma resposta completa depois de vários meses, então eu darei uma aqui.

A partir da declaração do problema, queremos a distribuição de

Y=max{X1,...,Xn}

onde são iid . Sabemos que se e somente se cada elemento da amostra for menor que . Então isso, como indicado na dica de @arty, combinado ao fato de que os são independentes, permite deduzirX1,...,XnUniform(a,b)Y<xxXi

P(Yx)=P(X1x,...,Xnx)=i=1nP(Xix)=FX(x)n

onde é o CDF da distribuição uniforme . Portanto, o CDF de é FX(x)Y

FY(y)=P(Yy)={0ya[(ya)/(ba)]ny(a,b)1yb

Como tem uma distribuição absolutamente contínua , podemos derivar sua densidade diferenciando o CDF . Portanto, a densidade de éYY

pY(y)=n(ya)n1(ba)n

No caso especial em que , temos , que é a densidade de uma distribuição Beta com e , desde .a=0,b=1pY(y)=nyn1α=nβ=1Beta(n,1)=Γ(n+1)Γ(n)Γ(1)=n!(n1)!=n

Como uma observação, a sequência que você obtém para classificar sua amostra em ordem crescente - - é chamada de estatística da ordem . Uma generalização dessa resposta é que todas as estatísticas de pedidos de uma amostra distribuída têm uma distribuição Beta , conforme observado na resposta de @ bnaul. X(1),...,X(n)Uniform(0,1)


Na verdade, essa era uma pergunta de lição de casa para mim. Obrigada pelo esclarecimento.
Paul PM

Eu sinto que deveria ter suas idéias aqui e responder a essa pergunta , mas não estou vendo como fazer isso. Você pode me ajudar? você pode recomendar um livro ou capítulo que fale dessa questão geral?

@PaulPM Por interesse, que curso cobre esse tipo de problema? Não foi algo que encontrei no meu curso de probabilidade de engenharia.
Alex

6

O máximo de uma amostra é uma das estatísticas da ordem , em particular a estatística de ordem da amostra . Em geral, é difícil calcular a distribuição das estatísticas de pedidos, conforme descrito no artigo da Wikipedia; para algumas distribuições especiais, as estatísticas de pedidos são bem conhecidas (por exemplo, para a distribuição uniforme, que possui estatísticas de pedidos distribuídas em Beta).nX1,,Xn

EDIT: O artigo da Wikipedia sobre amostra máxima e mínima também é útil e mais específico para o seu problema.


5
Para distribuições com densidades, o cálculo da distribuição marginal de uma estatística de ordem específica é bastante simples. É ainda mais fácil para estatísticas de pedidos "especiais", como o mínimo e o máximo.
cardeal

Eu acho que depende do que se entende por "calcular" na pergunta original. Certamente fazê-lo numericamente é direto; Interpretei a pergunta como perguntando como encontrar uma solução de formulário fechado, o que geralmente não é fácil.
bnaul

8
@bnaul: Let ser um arbitrária função de distribuição e deixar ser uma amostra de iid . Seja a estatística de ordem. EntãoQED . F(x)=P(Xx)X1,,XnFX(k)k
P(X(k)x)=m=knP(|{i:Xix}|=m)=m=kn(nm)F(x)m(1F(x))nm.
cardeal

1
Talvez uma maneira de entender a resposta dos cardeais (considerando que você entende a estatística de ordem para uniforme) seja que, como os cdfs são transformações monotônicas de 1 para 1 de um cdf uniforme, sempre podemos expressar o evento {X <a} em termos de uniforme variável aleatória (é por isso que monte carlo funciona). Portanto, qualquer resultado baseado em uma distribuição uniforme será facilmente generalizado para outras variáveis ​​aleatórias - basta aplicar a transformação . U=FX(X)
probabilityislogic

2
@probabilityislogic: A intuição é boa, embora pareça que você tenha variáveis ​​aleatórias contínuas em mente em seu comentário. (O resultado no meu segundo comentário acima, por exemplo, funciona para uma função de distribuição arbitrária.) #
21212 do cardeal

1

Se for o CDF de , então Você poderá usar a propriedade iid e o cdf de uma variável uniforme para calcular .FY(y)Y

FY(y)=Prob(y>X1,y>X2,...,y>Xn)
FY(y)

-3

O máximo de um conjunto de variáveis ​​aleatórias do IID, quando normalizado adequadamente, geralmente converge para um dos três tipos de valores extremos. Este é o teorema de Gnedenko, a equivalência do teorema do limite central para extremos. O tipo específico depende do comportamento da cauda da distribuição da população. Sabendo disso, você pode usar a distribuição limitadora para aproximar a distribuição ao máximo.

Como a distribuição uniforme em [a, b] é o assunto desta pergunta, a Macro forneceu a distribuição exata para qualquer n e uma resposta muito agradável. O resultado é bastante trivial. Para a distribuição normal, uma boa forma fechada não é possível, mas normalizou adequadamente o máximo para o normal converge para a distribuição de Gumbel F (x) = exp (- e ).x

Para o uniforme, a normalização é (ba) -x / ne F (bax / n) = (1-x / [n (ba)])nn

que converge para e . Observe aqui que y = bax / n. e F (y) converge para 1 quando y vai para ba. Isso vale para todos os 0 x/(ba)n

Nesse caso, é fácil comparar o valor exato ao seu limite assintótico.

Livro de Gumbel

Livro dos Galambos

O livro de Leadbetter

Livro de Novak

Livro de Coles


4
Para que essa resposta seja praticável, você precisa estipular, em detalhes, como alguém "normaliza adequadamente" os valores e também precisa fornecer uma maneira de estimar quão grande deve ser antes que a fórmula assintótica se torne uma aproximação confiável. n
whuber

Qualquer pessoa pode olhar o teorema de Gnedenko para ver a normalização. Igualmente importantes são as características da cauda que determinam qual dos três tipos se aplica. O teorema generaliza para processos estocásticos estacionários. Portanto, qualquer pessoa que queira conhecer os detalhes minuciosos pode consultar o livro de Leadbetter ou minha tese de doutorado. Quando n é grande o suficiente, é uma pergunta difícil de responder para qualquer forma de assintótica. Eu acho que o teorema de Berry-Esseen ajuda no teorema do limite central. Não sei o que é comparável a extremos.
22612 Michael Chernick
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.