Por que exatamente as informações observadas de Fisher são usadas?

17

Na configuração padrão de máxima verossimilhança (amostra iid $Y_{1}, \ldots, Y_{n}$ de alguma distribuição com densidade $f_{y}(y|\theta_{0}$ )) e no caso de um modelo especificado corretamente, as informações de Fisher são fornecidas por

I (θ) = - E_{θ_{0}} [\frac{\partial^{2}}{θ^{2}} \ln f_{y} (θ)]

$I(\theta) = -\mathbb{E}_{\theta_{0}}\left[\frac{\partial^{2}}{\theta^{2}}\ln f_{y}(\theta) \right]$

onde a expectativa é tomada em relação à densidade real que gerou os dados. Eu li que as informações de Fisher observadas

\hat{J} (θ) = - \frac{\partial^{2}}{θ^{2}} \ln f_{y} (θ)

$\hat{J}(\theta) = -\frac{\partial^{2}}{\theta^{2}}\ln f_{y}(\theta)$

é usado primário porque a integral envolvida no cálculo das Informações Fisher (esperadas) pode não ser viável em alguns casos. O que me confunde é que, mesmo que a integral seja factível, a expectativa deve ser tomada em relação ao modelo verdadeiro, que envolve o valor desconhecido do parâmetro . Se for esse o caso, parece que sem saber é impossível calcular . Isso é verdade? $\theta_{0}$ $\theta_{0}$ $I$

maximum-likelihood fisher-information

— user2249626
fonte

13

Você tem quatro quantias aqui: o parâmetro verdadeiro , uma estimativa consistente , a informação esperada em e as informações observadas em . Essas quantidades são equivalentes apenas assintoticamente, mas geralmente é assim que são usadas. $\theta_0$ $\hat \theta$ $I(\theta)$ $\theta$ $J(\theta)$ $\theta$

A informação observada converge em probabilidade para a informação esperada quando é uma amostra iid de . Aqui indica a expectativa w / r / t da distribuição indexada por : . Essa convergência se aplica por causa da lei dos grandes números; portanto, a suposição de que é crucial aqui.
$J (θ_{0}) = \frac{1}{N} \sum_{i = 1}^{N} \frac{\partial^{2}}{\partial θ_{0}^{2}} \ln f (y_{i} | θ_{0})$ $J (\theta_0) = \frac{1}{N} \sum_{i=1}^N \frac{\partial^2}{\partial \theta_0^2} \ln f( y_i|\theta_0)$ $I (θ_{0}) = E_{θ_{0}} [\frac{\partial^{2}}{\partial θ_{0}^{2}} \ln f (y | θ_{0})]$ $I(\theta_0) = E_{\theta_0} \left[ \frac{\partial^2}{\partial \theta_0^2} \ln f( y| \theta_0) \right]$ $Y$ $f(\theta_0)$ $E_{\theta_0} (x)$ $\theta_0$ $\int x f(x | \theta_0) dx$ $Y \sim f(\theta_0)$
Quando você tem uma estimativa que converge em probabilidade para o parâmetro verdadeiro (ou seja, é consistente), pode substituí-lo por qualquer lugar que veja a acima, essencialmente devido ao teorema do mapeamento contínuo , e todas as convergências continuam sendo mantidas. $\hat \theta$ $\theta_0$ $\theta_0$ $^*$

$^*$ Na verdade, parece um pouco sutil .

Observação

Como você supôs, as informações observadas são geralmente mais fáceis de trabalhar, porque a diferenciação é mais fácil do que a integração e você já pode tê-las avaliado no decorrer de alguma otimização numérica. Em algumas circunstâncias (a distribuição Normal), eles serão os mesmos.

O artigo "Avaliando a precisão do estimador de máxima verossimilhança: informações observadas versus informações esperadas de Fisher", de Efron e Hinkley (1978), argumenta a favor das informações observadas para amostras finitas.

— Andrew M
fonte

4

Houve alguns estudos de simulação que parecem apoiar as observações teóricas de Efron & Hinkley (que são mencionadas na resposta de Andrew), eis uma que conheço de antemão: Maldonado, G. e Greenland, S. (1994). Uma comparação do desempenho de intervalos de confiança baseados em modelo quando o formato correto do modelo é desconhecido. Epidemiology, 5, 171-182. Eu não vi nenhum estudo que conflite. É interessante, então, que os pacotes GLM padrão que conheço usem as informações esperadas para calcular os intervalos de Wald. Obviamente, isso não é um problema quando (como nos GLMs lineares no parâmetro natural) as matrizes de informações observadas e esperadas são iguais.

— Sander Greenland
fonte