Os estimadores são estatísticas e as estatísticas têm distribuições de amostragem (ou seja, estamos falando sobre a situação em que você continua desenhando amostras do mesmo tamanho e olhando para a distribuição das estimativas obtidas, uma para cada amostra).
A citação refere-se à distribuição de MLEs à medida que os tamanhos das amostras se aproximam do infinito.
Então, vamos considerar um exemplo explícito, o parâmetro de uma distribuição exponencial (usando a parametrização de escala, não a parametrização de taxa).
f( x ; μ ) =1 1μe- xμ;x > 0 ,μ > 0
Nesse caso, . O teorema nos mostra que, à medida que o tamanho da amostra aumenta, a distribuição de (uma padronizada adequadamente) (em dados exponenciais) se torna mais normal.μ^= x¯nX¯
Se coletarmos amostras repetidas, cada uma do tamanho 1, a densidade resultante da média da amostra é dada no gráfico superior esquerdo. Se coletarmos amostras repetidas, cada uma do tamanho 2, a densidade resultante da amostra é dada no gráfico superior direito; quando n = 25, no canto inferior direito, a distribuição das médias da amostra já começou a parecer muito mais normal.
(Nesse caso, já poderíamos antecipar que é o caso por causa do CLT. Mas a distribuição de também deve se aproximar da normalidade porque é ML para o parâmetro de taxa ... e você não pode obter isso do CLT - pelo menos não diretamente * -, já que não estamos mais falando de meios padronizados, e é disso que se trata o CLT)1 / X¯λ = 1 / μ
Agora considere o parâmetro de forma de uma distribuição gama com média de escala conhecida (aqui, usando uma parametrização de média e forma em vez de escala e forma).
O estimador não está fechado neste caso, e o CLT não se aplica a ele (novamente, pelo menos não diretamente *), mas, no entanto, o argmax da função de verossimilhança é MLE. À medida que você coleta amostras cada vez maiores, a distribuição amostral da estimativa do parâmetro de forma se tornará mais normal.
Essas são estimativas de densidade do kernel de 10000 conjuntos de estimativas ML do parâmetro de forma de uma gama (2,2), para os tamanhos de amostra indicados (os dois primeiros conjuntos de resultados foram extremamente pesados; foram truncados de alguma forma pode ver a forma perto do modo). Nesse caso, a forma próxima ao modo está mudando lentamente até o momento - mas a cauda extrema diminuiu drasticamente. Pode demorar um de várias centenas de começar a olhar normal.n
-
* Como mencionado, o CLT não se aplica diretamente (claramente, já que não estamos lidando em geral com meios). Você pode, no entanto, criar um argumento assintótico onde expande algo em em uma série, criar um argumento adequado relacionado a termos de ordem superior e chamar uma forma de CLT para obter uma versão padronizada de aproxima da normalidade (sob condições adequadas ...).θ^θ^
Observe também que o efeito que observamos quando analisamos amostras pequenas (pelo menos pequenas comparadas ao infinito) - essa progressão regular em direção à normalidade em várias situações, como vemos motivadas pelas plotagens acima - sugeriria que, se Como consideramos o cdf de uma estatística padronizada, pode haver uma versão de algo como uma desigualdade de Berry Esseen com base em uma abordagem semelhante à maneira de usar um argumento CLT com MLEs que forneceria limites sobre a velocidade com que a distribuição da amostra pode se aproximar da normalidade. Eu não vi algo assim, mas não me surpreenderia descobrir que tinha sido feito.