Estatísticas aproximadas de ordem para variáveis ​​aleatórias normais


38

Existem fórmulas bem conhecidas para as estatísticas de ordem de determinadas distribuições aleatórias? Particularmente as estatísticas de primeira e última ordem de uma variável aleatória normal, mas uma resposta mais geral também seria apreciada.

Editar: para esclarecer, estou procurando por fórmulas aproximadas que possam ser avaliadas mais ou menos explicitamente, e não a expressão integral exata.

Por exemplo, eu vi as duas aproximações a seguir para a estatística de primeira ordem (ou seja, o mínimo) de um rv normal:

e1:nμn12n1σ

e

e1:nμ+Φ1(1n+1)σ

O primeiro deles, para , fornece aproximadamente que parece um limite descontrolado.n=200e1:200μ10σ

O segundo fornece enquanto um Monte Carlo rápido fornece ; portanto, não é uma aproximação ruim, mas também não é ótima, e Mais importante ainda, não tenho nenhuma intuição sobre de onde vem.e1:200μ2.58σe1:200μ2.75σ

Qualquer ajuda?


4
Se você usa R, consulte a função ppoints .
cardeal

1
O @probabilityislogic deu uma boa intuição para as aproximações listadas. Seria útil se eu desse um pouco mais de um ponto de vista alternativo, ou você satisfez sua curiosidade sobre esse assunto?
cardinal

Respostas:


31

A referência clássica é Royston (1982) [1], que possui algoritmos que vão além de fórmulas explícitas. Também cita uma fórmula bem conhecida de Blom (1958): com . Esta fórmula fornece um multiplicador de -2,73 para .α=0,375n=200,r=1E(r:n)μ+Φ1(rαn2α+1)σα=0.375n=200,r=1

[1]: Algoritmo AS 177: Estatísticas esperadas de ordem normal (exata e aproximada) JP Royston. Jornal da Sociedade Estatística Real. Série C (Estatística Aplicada), vol. 31, n. 2 (1982), pp. 161-165


21

A distribuição da estatística de ordem i de qualquer aleatória contínua A variável com um PDF é fornecida pela distribuição composta "beta-F". A maneira intuitiva para pensar sobre esta distribuição, é de considerar a ordem estatística om em uma amostra de . Agora, para que o valor da enésima ordem estatística de uma variável aleatória seja igual a , precisamos de 3 condições:X xNXx
  1. x F Xi1 abaixo de , isso tem probabilidade para cada observação, onde é o CDF da variável aleatória X.xF X ( x ) = P r ( X < x )FX(x)FX(x)=Pr(X<x)
  2. x 1 - F X ( x )NiValores de acima de , isso tem probabilidadex1FX(x)
  3. 1 dentro de um intervalo infinitesimal que contém , isso tem probabilidade que é o PDF da variável aleatóriaf X ( x ) d x f X ( x ) d x = d F X ( x ) = P r ( x < X < x + d x ) XxfX(x)dxfX(x)dx=dFX(x)=Pr(x<X<x+dx)X

Existem maneiras de fazer essa escolha, portanto, temos:(N1)(N1i1)

fi(xi)=N!(i1)!(Ni)!fX(xi)[1FX(xi)]Ni[FX(xi)]i1dx

EDIT no meu post original, fiz uma péssima tentativa de ir além deste ponto, e os comentários abaixo refletem isso. Eu tentei corrigir isso abaixo

Se considerarmos o valor médio deste pdf, obtemos:

E(Xi)=xifi(xi)dxi

E nesta integral, fazemos a seguinte alteração da variável (usando a dica de @ henry), e a integral se torna:pi=FX(xi)

E(Xi)=01FX1(pi)Beta(pi|i,Ni+1)dpi=EBeta(pi|i,Ni+1)[FX1(pi)]

Portanto, este é o valor esperado do CDF inverso, que pode ser bem aproximado usando o método delta para fornecer:

EBeta(pi|i,Ni+1)[FX1(pi)]FX1[EBeta(pi|i,Ni+1)]=FX1[iN+1]

Para fazer uma melhor aproximação, podemos expandir para a 2ª ordem (diferenciação denotativa primária) e notar que a segunda derivada de uma inversa é:

2a2FX1(a)=FX(FX1(a))[FX(FX1(a))]3=fX(FX1(a))[fX(FX1(a))]3

Deixe . Então nós temos:νi=FX1[iN+1]

=νi-(i

EBeta(pi|i,Ni+1)[FX1(pi)]FX1[νi]VarBeta(pi|i,Ni+1)[pi]2fX(νi)[fX(νi)]3
=νi(iN+1)(1iN+1)2(N+2)fX(νi)[fX(νi)]3

Agora, especializando-se no caso normal, temos FX(x)=Φ(x-μ

fX(x)=1σϕ(xμσ)fX(x)=xμσ3ϕ(xμσ)=xμσ2fX(x)
FX(x)=Φ(xμσ)FX1(x)=μ+σΦ1(x)

Observe que E a expectativa se torna aproximadamente:fX(νi)=1σϕ[Φ1(iN+1)]

E[xi]μ+σΦ1(iN+1)+(iN+1)(1iN+1)2(N+2)σΦ1(iN+1)[ϕ[Φ1(iN+1)]]2

E finalmente:

E[xi]μ+σΦ1(iN+1)[1+(iN+1)(1iN+1)2(N+2)[ϕ[Φ1(iN+1)]]2]

Embora, como o @whuber notou, isso não será preciso nas caudas. Na verdade, acho que pode ser pior, devido à distorção de uma versão beta com parâmetros diferentes


1
"Estimador de probabilidade máxima de uma variável aleatória "? Não tenho certeza do que é isso, mas acho que você (quase) calculou o modo .
cardeal

1
Algo misterioso acontece em cerca de dois terços do caminho, quando de repente e aparecem sem aviso ou definição. σμσ
whuber

2
Não pretendo "empilhar", mas também é difícil para mim ver como a quantidade entre parênteses pode ser aproximada por um número negativo.
cardeal

1
@probabilityislogic, enquanto no nível do cálculo, você pode dizer que , neste caso , estamos considerando uma função bivariada e simplesmente maximizando uma variável em vez de outra, acho que existem razões matemáticas, estatísticas e pedagógicas para não chamar o que você fizemos "estimativa de máxima verossimilhança". Eles são numerosos demais para enumerar nesse espaço, mas um simples que eu acho bastante convincente é que usamos um vocabulário arcano particular em estatística por um motivo. Mudar isso por um capricho para um único problema pode levar a mal-entendidos (s) ... / ...
cardeal

2
@probabilityislogic (+1) para a resposta revisada. Uma sugestão, talvez seja melhor que para significar "implica". Demorou olhando algumas linhas por alguns segundos para perceber que você não estava reivindicando alguma convergência.
cardeal

13

A resposta de Aniko se baseia na fórmula bem conhecida de Blom, que envolve uma escolha de . Acontece que esta fórmula é, em si mesma, uma mera aproximação de uma resposta exata devido a G. Elfving (1947), A distribuição assintótica do intervalo em amostras de uma população normal , Biometrika, vol. 34, pp. 111-119. A fórmula de Elfving visa o mínimo e o máximo da amostra, para os quais a escolha correta de alfa é . A fórmula de Blom resulta quando aproximamos por .α=3/8π/8π3

Usando a fórmula Elfving em vez da aproximação de Blom, obtemos um multiplicador de -2,744165. Esse número está mais próximo da resposta exata de Erik P. (-2,746) e da aproximação de Monte Carlo (-2,75) do que a aproximação de Blom (-2,73), sendo mais fácil de implementar do que a fórmula exata.


Você poderia fornecer um pouco mais detalhadamente de como é alcançado através de Elfving (1947)? Não é óbvio no artigo. α=π/8
1818 Anthony

1
Anthony - Estou contando com o livro Mathematics Statistics, de Samuel Wilks, pub. Wiley (1962). Exercício 8.21 na p. 249 declara: "Se x_ (1), x_ (n) são as estatísticas de ordem maior e menor de uma amostra de tamanho n de um cdf contínuo F (x) ... a variável aleatória 2n * sqrt {[F (x_ ( 1))] [1-F (x_ (n))]} tem uma distribuição limite como n -> infinito, com pi / 2 médio e variação 4- (pi ^ 2) / 4 ". (Desculpe, não sei o código de marcação!) Para uma distribuição simétrica, F (x_ (1)) = 1-F (x_ (n)). Assim, F (x_ (n)) é sobre pi / (4n), ou x_ (n) é sobre F ^ (- 1) (pi / (4n)). A fórmula de Blom usa a aproximação 3 / (4n).
Hal M. Switkay

Isso me lembra o infame projeto " " atribuído à Assembléia Legislativa do Estado de Indiana. (Embora o artigo da wikipedia sugira que a versão popular da história não é precisa.)π=3
steveo'america

7

Dependendo do que você deseja fazer, esta resposta pode ou não ajudar - eu obtive a fórmula exata a seguir do pacote Statistics da Maple .

with(Statistics):
X := OrderStatistic(Normal(0, 1), 1, n):
m := Mean(X):
m;

1/2_t0n!2e1/2_t02(1/21/2erf(1/2_t02))1+n(1+n)!πd_t0

Por si só, isso não é muito útil (e provavelmente poderia ser derivado facilmente com a mão, pois é o mínimo de variáveis ​​aleatórias), mas permite uma aproximação rápida e muito precisa de determinados valores de - muito mais preciso do que Monte Carlo:nnn

evalf(eval(m, n = 200));
evalf[25](eval(m, n = 200));

fornece -2,746042447 e -2,746042447451154492412344, respectivamente.

(Divulgação completa - mantenho este pacote.)


1
O @ProbabilityIsLogic derivou essa integral para todas as estatísticas de pedidos na primeira metade de sua resposta.
whuber
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.