Explicação intuitiva das informações de Fisher e limite de Cramer-Rao


59

Não me sinto confortável com as informações de Fisher, o que elas medem e como elas são úteis. Também o relacionamento com o limite de Cramer-Rao não é aparente para mim.

Alguém pode, por favor, dar uma explicação intuitiva desses conceitos?


11
Existe algo no artigo da Wikipedia que esteja causando problemas? Ele mede a quantidade de informação que uma variável aleatória observável carrega sobre um parâmetro desconhecido do qual depende a probabilidade de , e seu inverso é o limite inferior de Cramer-Rao na variação de um estimador imparcial de . XθXθ
Henry

2
Eu entendo isso, mas não estou realmente confortável com isso. Assim, o que exatamente significa "quantidade de informação" significa aqui. Por que a expectativa negativa do quadrado da derivada parcial da densidade mede essas informações? De onde vem a expressão etc. É por isso que espero ter alguma intuição sobre isso.
Infinito

@ Infinidade: A pontuação é a taxa proporcional de mudança na probabilidade dos dados observados à medida que o parâmetro muda, e é muito útil para inferência. O Fisher informa a variação da pontuação (média zero). Portanto, matematicamente, é a expectativa do quadrado da primeira derivada parcial do logaritmo da densidade e, assim, é o negativo da expectativa da segunda derivada parcial do logaritmo da densidade.
Henry

Respostas:


32

Aqui eu explico por que a variação assintótica do estimador de máxima verossimilhança é o limite inferior de Cramer-Rao. Espero que isso forneça algumas dicas sobre a relevância das informações de Fisher.

A inferência estatística prossegue com o uso de uma função de probabilidade que você constrói a partir dos dados. A estimativa pontual é o valor que maximiza . O estimador é uma variável aleatória, mas ajuda a perceber que a função de probabilidade é uma "curva aleatória".θ L ( θ ) θ L ( θ )L(θ)θ^L(θ)θ^ L(θ)

Aqui assumimos dados iid extraídos de uma distribuição e definimos a probabilidade L ( θ ) = 1f(x|θ)

L(θ)=1ni=1nlogf(xi|θ)

O parâmetro possui a propriedade de maximizar o valor da probabilidade "verdadeira", . No entanto, a função de probabilidade "observada" que é construída a partir dos dados está um pouco "desligada" da verdadeira probabilidade. No entanto, como você pode imaginar, à medida que o tamanho da amostra aumenta, a probabilidade "observada" converge para o formato da verdadeira curva de probabilidade. O mesmo se aplica à derivada da probabilidade em relação ao parâmetro, a função de pontuação . (Resumindo a história, as informações de Fisher determinam a rapidez com que a função de pontuação observada converge para o formato da função de pontuação verdadeira.E L ( θ ) L ( θ ) L /θθEL(θ)L(θ) L/θ

Em um grande tamanho de amostra, assumimos que nossa estimativa de probabilidade máxima está muito próxima de . Ampliamos o zoom em um pequeno bairro em torno de e para que a função de probabilidade seja "localmente quadrática". qq qθ^θθθ^

Lá, é o ponto no qual a função de pontuação cruza a origem. Nesta pequena região, tratamos a função de pontuação como uma linha , uma com inclinação e interceptação aleatória em . Sabemos pela equação uma linha queL/θumbθθ^ L/θabθ

a(θ^θ)+b=0

ou

θ^=θb/a.

Pela consistência do estimador de MLE, sabemos que

E(θ^)=θ

no limite.

Portanto, assintoticamente

nVar(θ^)=nVar(b/a)

Acontece que a inclinação varia muito menos que a interceptação e, assintoticamente, podemos tratar a função de pontuação como tendo uma inclinação constante em um pequeno bairro ao redor de . Assim podemos escreverθ

nVar(θ^)=1a2nVar(b)

Então, quais são os valores de e ? Acontece que, devido a uma maravilhosa coincidência matemática, elas são exatamente a mesma quantidade (sinal de módulo a menos), a informação de Fisher.n V a r ( b )anVar(b)

a=E[2Lθ2]=I(θ)

nVar(b)=nVar[Lθ]=I(θ)

Portanto,

nVar(θ^)=1a2nVar(b)=(1/I(θ)2)I(θ)=1/I(θ)
assintoticamente : o limite inferior de Cramer-Rao. (Mostrar que é o limite inferior da variação de um estimador imparcial é outra questão.)1/I(θ)

2
Existe alguma representação gráfica da parte em que você menciona que a função de probabilidade é localmente quadrática?
Quirik

@quirik, considere usar a expansão Taylor de segunda ordem em torno de theta_hat.
Idnavid 27/07/2018

@ charles.y.zheng Esta é uma das explicações mais interessantes da cena.
Idnavid

13

Uma maneira de entender as informações do fisher é pela seguinte definição:

I(θ)=X2f(x|θ)θ2dxXf(x|θ)2θ2log[f(x|θ)]dx

As informações de Fisher podem ser escritas dessa maneira sempre que a densidade for duas vezes diferenciável. Se o espaço de amostra não depender do parâmetro , podemos usar a fórmula integral de Leibniz para mostrar que o primeiro termo é zero (diferencie os dois lados de duas vezes e você obtém zero), e o segundo termo é a definição "padrão". Aceitarei o caso quando o primeiro termo for zero. Os casos em que não é zero não são muito úteis para entender as informações de Fisher.f(x|θ)XθXf(x|θ)dx=1

Agora, quando você faz uma estimativa de probabilidade máxima (insira "condições de regularidade" aqui), você define

θlog[f(x|θ)]=0

E resolva para . Portanto, a segunda derivada diz com que rapidez o gradiente está mudando e, em certo sentido, "quão longe" pode se afastar do MLE sem fazer uma mudança apreciável no lado direito da equação acima. Outra maneira de pensar é imaginar uma "montanha" desenhada no papel - essa é a função de probabilidade de log. A resolução da equação MLE acima indica onde o pico desta montanha está localizado em função da variável aleatória . A segunda derivada mostra como a montanha é íngreme - o que, em certo sentido, mostra como é fácil encontrar o pico da montanha. As informações de Fisher provêm da inclinação esperada do pico e, portanto, têm um pouco de interpretação de "pré-dados".θ xθθx

Uma coisa que ainda acho curiosa é que é quão acentuada é a probabilidade logarítmica e não quão acentuada é alguma outra função monotônica da probabilidade (talvez relacionada a funções de pontuação "apropriadas" na teoria da decisão? Ou talvez aos axiomas de consistência da entropia ?).

As informações de Fisher também "aparecem" em muitas análises assintóticas, devido ao que é conhecido como aproximação de Laplace. Isso basicamente devido ao fato de que qualquer função com um aumento máximo único "bem-arredondado" para uma potência cada vez maior entra em uma função gaussiana (semelhante ao Teorema do Limite Central, mas um pouco mais geral). Portanto, quando você tem uma amostra grande, está efetivamente nessa posição e pode escrever:exp(ax2)

f(data|θ)=exp(log[f(data|θ)])

E quando você expandir, expanda a probabilidade de log sobre o MLE:

f(data|θ)[f(data|θ)]θ=θMLEexp(12[2θ2log[f(data|θ)]]θ=θMLE(θθMLE)2)
e essa segunda derivada da probabilidade logarítmica aparece (mas na forma "observada" em vez de "esperada"). O que geralmente é feito aqui é fazer uma aproximação adicional:

2θ2log[f(data|θ)]=n(1ni=1n2θ2log[f(xi|θ)])nI(θ)

O que equivale à geralmente boa aproximação de substituir uma soma por uma integral, mas isso exige que os dados sejam independentes. Portanto, para grandes amostras independentes (dado ), você pode ver que as informações de Fisher são as variáveis ​​do MLE, para vários valores do MLE.θ


11
"Uma coisa que eu ainda acho curioso é que é quão íngreme é a probabilidade de log e não quão íngreme é outra função monotônica da probabilidade". Tenho certeza de que você poderia derivar análogos para as informações de Fisher em termos de outras transformações da probabilidade, mas não seria uma expressão tão clara para o limite inferior de Cramer-Rao.
Charles.y.zheng

2

Este é o artigo mais intuitivo que eu vi até agora:

O limite inferior da variação de Cramér-Rao: “Princípio da incerteza” de Adam e Eve, de Michael R. Powers, Journal of Risk Finance, vol. 7, n. 3, 2006

O limite é explicado por uma analogia de Adão e Eva no Jardim do Éden jogando uma moeda para ver quem come a fruta e eles se perguntam o tamanho de uma amostra necessária para atingir um certo nível de precisão em sua estimativa, e eles descobrem esse limite ...

Bela história com uma mensagem profunda sobre a realidade.


6
Obrigado por postar esta referência. No final, fiquei desapontado, ao descobrir que isso realmente não explica o CRLB. Ele apenas afirma isso, sem fornecer nenhuma ideia do porquê da verdade, e apenas fornece uma linguagem evocativa, mas sem sentido, como "espremer informações", em um esforço para explicá-las.
whuber

@ whuber: É justo, eu concordo que poderia mergulhar mais fundo e o final é um pouco abrupto. No entanto, o que eu mais gosto no artigo é que parece realmente natural que exista uma conexão entre tamanho da amostra, média da amostra, lei de grandes números e que a variação da amostra só possa ser reduzida até certo ponto (ou seja, que seja necessário alguns vinculados , que é o mencionado acima). Também deixa claro que este não é um resultado matemático ilusório, mas realmente uma afirmação sobre os limites do ganho de conhecimento da realidade.
vonjd

2

Embora as explicações fornecidas acima sejam muito interessantes e eu gostei de analisá-las, sinto que a natureza do limite inferior de Cramer-Rao foi melhor explicada para mim de uma perspectiva geométrica. Essa intuição é um resumo do conceito de elipses de concentração do capítulo 6 do livro de Scharf sobre Statistical Signal Processing .

Considere qualquer estimador imparcial de . Além disso, suponha que o estimador tenha uma distribuição gaussiana com covariância . Sob essas condições, a distribuição de é proporcional a:θθ^Σθ^

f(θ^)exp(12(θ^θ)TΣ1(θ^θ)) .

Agora pense nos gráficos de contorno dessa distribuição para . Qualquer restrição do limite superior da probabilidade de (isto é, ) resultará em um elipsóide centrado em com raio fixo . É fácil mostrar que existe uma relação individual entre o raio do elipsóide e a probabilidade desejada . Em outras palavras, está próximo a dentro de um elipsóide determinado pelo raio com probabilidadeθR2θ^f(θ^)dθPrθrrPrθ^θrPr. Este elipsóide é chamado de elipsóide de concentração.

Considerando a descrição acima, podemos dizer o seguinte sobre o CRLB. Entre todos os estimadores imparciais, o CRLB representa um estimador com covariância que, para probabilidade fixa de "proximidade" (como definido acima), tem a menor concentração elipsóide. A figura abaixo fornece uma ilustração 2D (inspirada na ilustração no livro de Scharf ).θ^crlbΣcrlbPr

Ilustração 2D do CRLB no contexto de estimadores imparciais.


2
Bem, isso é ótimo, especialmente a imagem, precisa de mais votos.
Astrid
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.