Estou tentando provar que a matriz de informações observada avaliada no estimador de verossimilhança máxima fraca consistentemente consistente (MLE) é um estimador fracamente consistente da matriz de informações esperada. Este é um resultado amplamente citado, mas ninguém fornece uma referência ou uma prova (acabei as 20 primeiras páginas de resultados do Google e meus livros de estatísticas)!
Usando uma sequência fracamente consistente de MLEs, posso usar a lei fraca de grandes números (WLLN) e o teorema do mapeamento contínuo para obter o resultado desejado. No entanto, acredito que o teorema do mapeamento contínuo não possa ser usado. Em vez disso, acho que a lei uniforme de grandes números (ULLN) precisa ser usada. Alguém sabe de uma referência que tenha uma prova disso? Eu tenho uma tentativa na ULLN, mas a omito por enquanto por uma questão de concisão.
Peço desculpas pela extensão desta pergunta, mas a notação precisa ser introduzida. A notação é a seguinte (minha prova está no final).
Suponha temos uma amostra iid de variáveis aleatórias { Y 1 , ... , Y N }{Y1,…,YN} com densidades de f ( ~ Y | q )f(Y~|θ) , onde q ∈ q ⊆ R kθ∈Θ⊆Rk (aqui ~ YY~ é um apenas uma variável aleatória geral com a mesma densidade como qualquer um dos membros da amostra). O vetor Y = ( Y 1 , … , Y N ) TY=(Y1,…,YN)T é o vetor de todos os vetores de amostra em que Y i∈ R nYi∈Rn para todos os i = 1 , ... , Ni=1,…,N . O verdadeiro valor do parâmetro das densidades é θ 0θ0 , e θ N ( Y ) é o estimador da probabilidade máxima fracamente coerente (MLE) de θ 0 . Sujeito a condições de regularidade, a matriz Fisher Information pode ser escrita comoθ^N(Y)θ0
I ( θ ) = - E θ [ H θ ( log f ( ˜ Y | θ ) ]
I(θ)=−Eθ[Hθ(logf(Y~|θ)]
onde H θHθ é a matriz hessiana. O equivalente da amostra é
I N ( θ ) = N ∑ i = 1 I y i ( θ ) ,
IN(θ)=∑i=1NIyi(θ),
onde I y i = - E θ [ H θ ( log f ( Y i | θ ) ]Iyi=−Eθ[Hθ(logf(Yi|θ)] . A matriz de informação é observada;
J ( θ ) = - H θ ( log f ( y | θ )J(θ)=−Hθ(logf(y|θ) ,
(algumas pessoas exigem a matriz é avaliada em θ mas alguns não). A matriz de informação observada na amostra é;θ^
J N ( θ ) = ∑ N i = 1 J y i ( θ )JN(θ)=∑Ni=1Jyi(θ)
onde J y i ( θ ) = - H θ ( log f ( y i | θ )Jyi(θ)=−Hθ(logf(yi|θ) .
Eu pode provar convergência na probabilidade do estimador N - 1 J N ( θ )N−1JN(θ) a I ( θ )I(θ) , mas não de N - 1 J N ( θ N ( Y ) )N−1JN(θ^N(Y)) a I ( θ 0 )I(θ0) . Aqui está a minha prova até agora;
Agora ( J N ( θ ) ) r s = - ∑ N i = 1 ( H θ ( log f ( Y i | θ ) ) r s(JN(θ))rs=−∑Ni=1(Hθ(logf(Yi|θ))rs é elemento ( r , s )(r,s) de J N ( θ )JN(θ) , para qualquer r , s = 1 , … , kr,s=1,…,k. Se a amostra é iid, em seguida, pela lei fraco de grandes números (WLLN), a média destas summands converge em probabilidade para - E θ [ ( H θ ( log f ( Y 1 | θ ) ) R s ] = ( I Y 1 ( θ ) ) r s = ( I ( θ ) ) r s−Eθ[(Hθ(logf(Y1|θ))rs]=(IY1(θ))rs=(I(θ))rs Assim, N - 1 ( J N ( θ )) r s P → ( I ( θ ) ) r sN−1(JN(θ))rs→P(I(θ))rs para todos os r , s = 1 , … , kr,s=1,…,k , e assim N - 1 J N ( θ ) P → I ( θ )N−1JN(θ)→PI(θ) . Infelizmente, não é possível simplesmente concluir N - 1 J N ( θ N ( Y ) ) P → I ( θ0)N−1JN(θ^N(Y))→PI(θ0) by using the continuous mapping theorem since N−1JN(⋅)N−1JN(⋅) is not the same function as I(⋅)I(⋅).
Any help on this would be greatly appreciated.