Pergunta básica sobre a matriz de informações de Fisher e a relação com erros Hessianos e padrão


54

Ok, essa é uma pergunta bastante básica, mas estou um pouco confusa. Na minha tese, escrevo:

Os erros padrão podem ser encontrados calculando o inverso da raiz quadrada dos elementos diagonais da matriz (observada) de Fisher Information:

-logLI(μ,σ2)=H-1

sμ^,σ^2=1I(μ^,σ^2)
Como o comando de otimização em R minimiza a matriz Fisher Information (observada) pode ser encontrada calculando o inverso do Hessian: logL
I(μ^,σ^2)=H1

Minha principal pergunta: está correto o que estou dizendo ?

Estou um pouco confuso, porque nesta fonte da página 7 diz:

a matriz da informação é negativa do valor esperado da matriz hessiana

(Portanto, não o inverso do Hessian.)

Visto que nesta fonte da página 7 (nota 5) diz:

A informação observada de Fisher é igual a .(H)1

(Então aqui está o inverso.)

Estou ciente do sinal de menos e quando usá-lo e quando não, mas por que há uma diferença em tomar o inverso ou não?


@COOLSerdash Obrigado por suas correções e +1, mas esta fonte: unc.edu/~monogan/computing/r/MLE_in_R.pdf página 7 diz claramente que as informações de Fisher observadas são iguais às INVERSAS do Hessian?
Jen Bohold

@COOLSerdash Ok, você pode postar isso como resposta.
Jen Bohold

Respostas:


75

Yudi Pawitan escreve em seu livro In All Likelihood que a segunda derivada da probabilidade logarítmica avaliada nas estimativas de máxima verossimilhança (MLE) é a informação observada de Fisher (consulte também este documento , página 2). É exatamente isso que a maioria dos algoritmos de otimização gosta optimem Rtroca: o Hessian avaliado no MLE. Quando o negativoprobabilidade de log é minimizada, o Hessian negativo é retornado. Como você aponta corretamente, os erros padrão estimados do MLE são as raízes quadradas dos elementos diagonais do inverso da matriz de informações de Fisher observada. Em outras palavras: as raízes quadradas dos elementos diagonais do inverso do hessiano (ou do hessiano negativo) são os erros padrão estimados.

Sumário

  • O Hessian negativo avaliado no MLE é o mesmo que a matriz de informações de Fisher observada avaliada no MLE.
  • Em relação à sua pergunta principal: Não, não é correto que as informações de Fisher observadas possam ser encontradas invertendo o Hessiano (negativo).
  • Em relação à sua segunda pergunta: O inverso do Hessiano (negativo) é um estimador da matriz de covariância assintótica. Portanto, as raízes quadradas dos elementos diagonais da matriz de covariância são estimadores dos erros padrão.
  • Acho que o segundo documento vinculado está errado.

Formalmente

Seja uma função de probabilidade de log. A matriz de informações de Fisher é uma matriz simétrica contém as entradas: A matriz de informações observada de Fisher é simplesmente , a matriz de informação avaliada com base nas estimativas de máxima verossimilhança (MLE). O Hessiano é definido como: l(θ) I(θ)(p×p)

I(θ)=2θiθjl(θ),    1i,jp
I(θ^ML)
H(θ)=2θiθjl(θ),    1i,jp
Nada mais é do que a matriz de segundas derivadas da função de probabilidade em relação aos parâmetros. Daqui resulta que, se você minimizar a probabilidade logarítmica negativa , o Hessian retornado é o equivalente à matriz de informações Fisher observada, enquanto no caso de você maximizar a probabilidade logarítmica, o Hessian negativo é a matriz de informações observadas.

Além disso, o inverso da matriz de informações de Fisher é um estimador da matriz de covariância assintótica: Os erros padrão são as raízes quadradas dos elementos diagonais da matriz de covariância. Para a distribuição assintótica de uma estimativa de máxima verossimilhança, podemos escrever que indica o valor verdadeiro do parâmetro. Portanto, o erro padrão estimado das estimativas de máxima verossimilhança é dado por: θ M L um ~ N ( θ 0 , [ I ( θ M G ) ] - 1 ) θ 0 S E ( θ M L ) = 1

Var(θ^ML)=[I(θ^ML)]1
θ^MLaN(θ0,[I(θ^ML)]1)
θ0
SE(θ^ML)=1I(θ^ML)

11
deve dizer "quando a probabilidade de log negativa for minimizada " (ou otimizada ).
Cmo

8
As informações (esperadas) de Fisher são ; as informações observadas (Fisher) são apenas , assim chamadas não porque são avaliadas na estimativa de similaridade máxima de , mas porque são uma função dos dados observados e não uma média das observações possíveis. Talvez isso seja obscurecido por exemplos familiares, considerando a inferência sobre o parâmetro canônico em uma família exponencial completa, quando . I ( θ ) θ I ( θ ) = I ( θ )I(θ)=EI(θ)I(θ)θI(θ)=I(θ)
Scortchi - Restabelece Monica

6

A estimativa das funções de probabilidade envolve um processo de duas etapas.

Primeiro, declara-se a função de probabilidade de log. otimiza-se as funções de probabilidade de log. Isso é bom.

Escrevendo as funções de probabilidade de log em R, solicitamos (onde representa a função de probabilidade de log) porque o comando optim em R minimiza uma função por padrão. minimização de -l é o mesmo que maximização de l, que é o que queremos.l1ll

Agora, a matriz de informações de Fisher observada é igual a . a razão pela qual não precisamos multiplicar o hassiano por -1 é que toda a avaliação foi feita em termos de -1 vezes a probabilidade logarítmica. Isso significa que o hessian que é produzido por optim já é multiplicado por -1(H)1

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.