O CLT (pelo menos em algumas de suas várias formas) nos diz que, no limite de distribuição de uma única média padronizada de amostra ( ) converge para uma distribuição normal (sob algumas condições).n → ∞X¯- μσ/ n√
O CLT não nos diz o que acontece em ou .n = 50n = 50 , 000
Mas, ao tentar motivar o CLT, particularmente quando nenhuma prova do CLT é oferecida, algumas pessoas confiam na distribuição amostral de para amostras finitas e mostram que, quando são coletadas amostras maiores, a distribuição amostral se aproxima da amostra. normal.X¯
Estritamente falando, isso não está demonstrando o CLT, está mais próximo de demonstrar o teorema de Berry-Esseen, pois demonstra algo sobre a taxa em que a abordagem da normalidade entra - mas que, por sua vez, nos levaria ao CLT, por isso serve bem como motivação (e, de fato, muitas vezes algo como o Berry-Esseen se aproxima do que as pessoas realmente querem usar em amostras finitas de qualquer maneira, de modo que a motivação possa, em certo sentido, ser mais útil na prática do que o próprio teorema do limite central) .
a distribuição dessas médias amostrais seria normal.
Bem, não, eles não seriam normais, mas na prática estariam muito próximos do normal (as alturas são um tanto distorcidas, mas não muito distorcidas).
[Observe novamente que o CLT realmente não nos diz nada sobre o comportamento da média da amostra para ; era isso que eu estava abordando na minha discussão anterior sobre Berry-Esseen, que trata de quão longe de um cdf normal a função de distribuição de meios padronizados pode estar para amostras finitas]n = 50
O caso do mundo real em que estou pensando é fazer estatísticas sobre um conjunto de dados de 50.000 usuários do twitter. Obviamente, esse conjunto de dados não é amostras repetidas, é apenas uma grande amostra de 50.000.
Para muitas distribuições, uma média de amostra de 50.000 itens teria muito perto de uma distribuição normal - mas não é garantido, mesmo em n = 50.000 que você terá muito perto de uma distribuição normal (se a distribuição dos itens individuais for suficientemente inclinada, por exemplo, a distribuição dos meios de amostra ainda pode ser inclinada o suficiente para tornar uma aproximação normal insustentável).
(O teorema de Berry-Esseen nos levaria a antecipar que exatamente esse problema poderia ocorrer - e comprovadamente ocorre. É fácil dar exemplos aos quais o CLT se aplica, mas para o qual n = 50.000 não é uma amostra suficientemente grande para a amostra. amostra padronizada significa estar próximo do normal.)