Em um artigo, encontrei a fórmula para o desvio padrão de um tamanho de amostra
onde é o intervalo médio de subamostras (tamanho ) da amostra principal. Como o número é calculado? Esse é o número correto?
Em um artigo, encontrei a fórmula para o desvio padrão de um tamanho de amostra
onde é o intervalo médio de subamostras (tamanho ) da amostra principal. Como o número é calculado? Esse é o número correto?
Respostas:
Em uma amostra de n valores independentes de uma distribuição F com pdf f , o pdf da distribuição conjunta dos extremos min ( x ) = x [ 1 ] e max ( x ) = x [ n ] é proporcional a
(A constante de proporcionalidade é recíproca do coeficiente multinomial . Intuitivamente, este PDF conjunto expressa a chance de encontrar o menor valor no intervalo[x[1],x[1]+dx[1]), o maior valor no intervalo[x[n],x[n]+dx[n])e os valores médios entre eles dentro do intervalo [ x [ 1 ] + d x [ 1 ] , x é contínuo, podemos substituir esse intervalo intermediário por ( x [ 1 ] , x [ n ] ] , negligenciando apenas uma quantidade "infinitesimal" de probabilidade. As probabilidades associadas, de primeira ordem nos diferenciais, são f ( x [ 1 ]. QuandoFd x [ 1 ] ,f( x [ n ] )d x [ n ] e F ( x [ n ] ) - F ( x [ 1 ] ) , ., Respectivamente, agora tornando-se óbvio que a fórmula vem)
Tomando a expectativa do intervalo dá 2,53441 σ para qualquer distribuição normal com desvio padrão σ e n = 6 . O intervalo esperado como múltiplo de σ depende do tamanho da amostra n :
Esses valores foram calculados integrando numericamente sobre{(x,y)∈R2| x≤y}, comFdefinido no CDF normal padrão e dividido pelo desvio padrão deF(que é apenas1 ).
Uma relação multiplicativa semelhante entre o intervalo esperado e o desvio padrão será válida para qualquer família de distribuições em escala de localização, porque é uma propriedade apenas da forma da distribuição. Por exemplo, aqui está um gráfico comparável para distribuições uniformes:
e distribuições exponenciais:
Os valores nas duas parcelas anteriores foram obtidos por integração exata - não numérica -, o que é possível devido às formas algébricas relativamente simples de e F em cada caso. Para as distribuições uniformes, eles são iguais a n - 1 e para as distribuições exponenciais são ondeγé constante de Euler eψé a função "polygamma", a derivada logarítmica da função Gamma de Euler.
Embora sejam diferentes (porque essas distribuições exibem uma ampla gama de formas), as três concordam aproximadamente em torno de , mostrando que o multiplicador 2,5 não depende muito da forma e, portanto, pode servir como uma avaliação abrangente e abrangente do desvio padrão quando faixas de pequenas subamostras são conhecidas. (De fato, o estudante de cauda muito pesadadistribuição muito t de t com três graus de liberdade ainda tem um multiplicador em torno de 2,3 para n = 6 , não muito longe de 2,5 .)
Essa aproximação está muito próxima do verdadeiro desvio padrão da amostra. Eu escrevi um script R rápido para ilustrá-lo:
x = sample(1:10000,6000,replace=TRUE)
B = 100000
R = rep(NA,B)
for(i in 1:B){
samp = sample(x,6)
R[i] = max(samp)-min(samp)
}
mean(R)/2.534
sd(x)
que produz:
> mean(R)/2.534
[1] 2819.238
>
> sd(x)
[1] 2880.924
Agora não tenho certeza (ainda) por que isso funciona, mas pelo menos parece (pelo valor nominal) que a aproximação é decente.
Edit: Veja o comentário excepcional de @ Whuber (acima) sobre por que isso funciona