Que tipo de informação é Fisher?


29

Suponha que tenhamos uma variável aleatória . Se fosse o parâmetro true, a função de verossimilhança deveria ser maximizada e a derivada igual a zero. Esse é o princípio básico por trás do estimador de probabilidade máxima.Xf(x|θ)θ0

Pelo que entendi, as informações de Fisher são definidas como

I(θ)=E[(θf(X|θ))2]

Portanto, se é o parâmetro true, . Mas se não for o parâmetro true, teremos uma quantidade maior de informações de Fisher.θ0I(θ)=0θ0

minhas perguntas

  1. As informações de Fisher medem o "erro" de um determinado MLE? Em outras palavras, a existência de informações positivas de Fisher não implica que meu MLE não possa ser ideal?
  2. Como essa definição de "informação" difere da usada por Shannon? Por que chamamos isso de informação?

Por que você escreve ? A expectativa é acima dos valores de distribuídos como se eles viessem da sua distribuição com o parâmetro . EθXθ
Neil G

3
Também não é zero no parâmetro true. I(θ)
Neil G

OE (S) é zero (ie: expectativa da função de pontuação), mas, como Neil G escreveu - a informação do pescador (V (S)) não é (geralmente) zero.
Tal Galili

Respostas:


15

Tentando complementar as outras respostas ... Que tipo de informação é Fisher? Comece com a função de probabilidade de log como uma função de para , o espaço do parâmetro. Assumindo algumas condições de regularidade que não discutimos aqui, temos (escreveremos derivadas com relação ao parâmetro como pontos aqui). A variação é a informação de Fisher θ θ Θ E

(θ)=logf(x;θ)
θθΘI(θ)=Eθ( ˙ (θ))2=-Eθ ¨ (θ)θ ˙ (θ)=0 ˙ (θ)Eθ(θ)=Eθ˙(θ)=0
I(θ)=Eθ(˙(θ))2=Eθ¨(θ)
a última fórmula que mostra que é a curvatura (negativa) da função de probabilidade de log. Geralmente, é encontrado o estimador de probabilidade máxima (mle) de , resolvendo a equação de probabilidade quando as informações de Fisher como a variação da pontuação for grande, a solução para essa equação será muito sensível aos dados, dando esperança à alta precisão da mle. Isso é confirmado pelo menos assintoticamente, sendo a variação assintótica da mle o inverso da informação de Fisher.θ˙(θ)=0˙(θ)

Como podemos interpretar isso? é a informação de probabilidade sobre o parâmetro da amostra. Isso realmente só pode ser interpretado em um sentido relativo, como quando o usamos para comparar as plausibilidades de dois valores possíveis de parâmetros distintos através do teste de razão de verossimilhança . A taxa de alteração da probabilidade de log é a função de pontuação nos diz com que rapidez a probabilidade muda e sua variação quanto isso varia de amostra para amostra, em um determinado parâmetro valor, digamos . A equação (que é realmente surpreendente!) θ ( θ 0 ) - ( θ 1 ) ˙ ( θ ) I ( θ ) θ 0 I ( θ ) = - E θ ¨ ( θ ) θ 0 ˙ ( θ ) | θ = θ 0 θ θ 0(θ)θ(θ0)(θ1)˙(θ)I(θ)θ0

I(θ)=Eθ¨(θ)
nos diz que há uma relação (igualdade) entre a variabilidade na informação (probabilidade) para um determinado valor de parâmetro, , e a curvatura da função de probabilidade para esse valor de parâmetro. Essa é uma relação surpreendente entre a variabilidade (variação) dessa estatística e a mudança esperada na semelhança quando variamos o parâmetro em algum intervalo ao redor (para os mesmos dados). Isso é realmente estranho, surpreendente e poderoso!θ0˙(θ)θ=θ0θθ0

Então, qual é a função de probabilidade? Geralmente pensamos no modelo estatístico como uma família de distribuições de probabilidade para os dados , indexadas pelo parâmetro algum elemento no espaço de parâmetros . Pensamos nesse modelo como verdadeiro se existir algum valor tal forma que os dados realmente tenham a distribuição de probabilidade . Portanto, obtemos um modelo estatístico incorporando a verdadeira distribuição de probabilidade de geração de dadosx θ q θ 0q x f ( x ; θ 0 ) f ( x ; θ 0 ){f(x;θ),θΘ}xθΘθ0Θxf(x;θ0)f(x;θ0)em uma família de distribuições de probabilidade. Mas, é claro que essa incorporação pode ser feita de muitas maneiras diferentes, e cada uma dessas incorporação será um modelo "verdadeiro" e fornecerão funções de probabilidade diferentes. E, sem essa incorporação, não há função de probabilidade. Parece que realmente precisamos de ajuda, alguns princípios sobre como escolher sabiamente uma incorporação!

Então o que isso quer dizer? Isso significa que a escolha da função de probabilidade nos diz como esperaríamos que os dados mudassem, se a verdade mudasse um pouco. Mas, isso realmente não pode ser verificado pelos dados, pois eles fornecem apenas informações sobre a verdadeira função do modelo que realmente gerou os dados, e não nada sobre todos os outros elementos no modelo escolhido. Dessa forma, vemos que a escolha da função de verossimilhança é semelhante à escolha de um anterior na análise bayesiana, injeta informações não relacionadas aos dados na análise. Vejamos isso em um exemplo simples (um tanto artificial) e vejamos o efeito de incorporar em um modelo de maneiras diferentes.f ( x ; θ 0 )f(x;θ0)f(x;θ0)

Suponhamos que sejam iid como . Portanto, essa é a verdadeira distribuição geradora de dados. Agora, vamos incorporar isso em um modelo de duas maneiras diferentes, modelo A e modelo B. você pode verificar se isso coincide com . N ( μ = 10 , σ 2 = 1 ) A : X 1 , ... , X n iid N ( μ , σ 2 = 1 ) , μ RX1,,XnN(μ=10,σ2=1)μ = 10

A:X1,,Xn iid N(μ,σ2=1),μRB:X1,,Xn iid N(μ,μ/10),μ>0
μ=10

As funções de probabilidade de log se tornam

A(μ)=n2log(2π)12i(xiμ)2B(μ)=n2log(2π)n2log(μ/10)102i(xiμ)2μ

A pontuação funciona: (derivadas de probabilidade de log): e as curvaturas assim, as informações de Fisher realmente dependem da incorporação. Agora, calculamos as informações de Fisher no valor verdadeiro , portanto, as informações de Fisher sobre o parâmetro são um pouco maiores no modelo B.

˙A(μ)=n(x¯μ)˙B(μ)=n2μ102i(xiμ)215n
¨A(μ)=n¨B(μ)=n2μ2+102i2xi2μ3
μ=10
IA(μ=10)=n,IB(μ=10)=n(1200+20202000)>n

Isso ilustra que, em certo sentido, as informações de Fisher nos dizem com que rapidez as informações dos dados sobre o parâmetro seriam alteradas se o parâmetro governante fosse alterado da maneira postulada pela incorporação em uma família de modelos . A explicação de informações mais altas no modelo B é que nossa família de modelos B postula que, se a expectativa aumentasse, a variação também aumentaria . Para que, no modelo B, a variação da amostra também leve informações sobre , o que não será feito no modelo A.μ

Além disso, este exemplo ilustra que realmente precisamos de alguma teoria para nos ajudar a construir famílias de modelos.


1
ótima explicação. Por que você diz ? é uma função de - não é 0 apenas quando avaliado no parâmetro verdadeiro ? \Eθ˙(θ)=0θθ0
Ihadanny

1
Sim, o que você diz é verdade, @idadanny É zero quando avaliado no valor verdadeiro do parâmetro.
precisa saber é o seguinte

Mais uma vez obrigado @kjetil - apenas mais uma pergunta: a relação surpreendente entre a variação da pontuação e a curvatura da probabilidade é verdadeira para cada ? ou apenas na vizinhança do verdadeiro parâmetro ? θθ0
Ihadanny

Novamente, esse relacionamento é verdadeiro para o valor verdadeiro do parâmetro. Mas, para que isso seja de muita ajuda, deve haver continuidade, de modo que seja aproximadamente verdadeiro em algum bairro, pois o usaremos no valor estimado , não apenas no valor verdadeiro (desconhecido). θ^
Kjetil b halvorsen

então, o relacionamento vale para o parâmetro verdadeiro , quase vale para já que assumimos que ele está no bairro de , mas para um geral não é válido, certo? θ0θmleθ0θ1
Ihadanny

31

Vamos pensar em termos da função de probabilidade de log negativa . A pontuação negativa é seu gradiente em relação ao valor do parâmetro. No parâmetro true, a pontuação é zero. Caso contrário, ele indica a direção do mínimo (ou, no caso de não convexo , um ponto de sela ou mínimo ou máximo local).

As informações de Fisher medem a curvatura de torno de se os dados seguirem . Em outras palavras, ele indica quanto movimento do parâmetro afetaria sua probabilidade de log.θθθ

Considere que você tinha um grande modelo com milhões de parâmetros. E você tinha um pequeno pen drive para armazenar seu modelo. Como você deve priorizar quantos bits de cada parâmetro armazenar? A resposta certa é alocar bits de acordo com as informações de Fisher (Rissanen escreveu sobre isso). Se as informações de Fisher de um parâmetro forem zero, esse parâmetro não importa.

Chamamos isso de "informação" porque as informações de Fisher medem o quanto esse parâmetro nos diz sobre os dados.


Uma maneira coloquial de pensar sobre isso é: suponha que os parâmetros estejam dirigindo um carro e os dados estejam no banco traseiro, corrigindo o motorista. O aborrecimento dos dados é a informação de Fisher. Se os dados deixarem o motorista dirigir, as informações de Fisher serão zero; se os dados estão constantemente fazendo correções, são grandes. Nesse sentido, a informação de Fisher é a quantidade de informação que vai dos dados aos parâmetros.

Considere o que acontece se você tornar o volante mais sensível. Isso é equivalente a uma reparametrização. Nesse caso, os dados não querem ser tão altos por medo do excesso de direção do carro. Esse tipo de reparametrização diminui as informações de Fisher.


20

Complementar à boa resposta da @ NeilG (+1) e para responder às suas perguntas específicas:

  1. Eu diria que conta a "precisão" em vez do próprio "erro".

Lembre-se de que o Hessian da probabilidade logarítmica avaliada nas estimativas de ML é a informação de Fisher observada. Os erros padrão estimados são as raízes quadradas dos elementos diagonais do inverso da matriz de informações de Fisher observada. A partir disso, as informações de Fisher são o traço da matriz de informações de Fisher. Dado que a matriz de informações de Fisher é uma matriz de matriz semidefinida positiva hermitiana, as entradas diagonais são reais e não negativas; como conseqüência direta, o traço deve ser positivo. Isso significa que você pode ter apenas estimadores "não ideais" de acordo com sua afirmação. Portanto, não, uma informação positiva de Fisher não está relacionada ao quão ideal é o seu MLE.IIj,jtr(I)

  1. A definição difere na maneira como interpretamos a noção de informação nos dois casos. Dito isto, as duas medidas estão intimamente relacionadas.

O inverso da informação de Fisher é a variação mínima de um estimador imparcial ( ligado a Cramér – Rao ). Nesse sentido, a matriz de informações indica quanta informação sobre os coeficientes estimados está contida nos dados. Pelo contrário, a entropia de Shannon foi extraída da termodinâmica. Relaciona o conteúdo de informações de um valor específico de uma variável como que é a probabilidade de a variável assumir o valor. Ambas são medidas de quão "informativa" é uma variável. No primeiro caso, embora você julgue essas informações em termos de precisão, enquanto no segundo caso em termos de desordem; lados diferentes, mesma moeda! : Dpp·log2(p)p

Para recapitular: O inverso da matriz de informações de Fisher avaliada nos valores do estimador de ML é a matriz de covariância assintótica ou aproximada. Como os valores deste estimador de ML são encontrados graficamente em um mínimo local graficamente, as informações de Fisher mostram quão profundo é esse mínimo e quanto espaço de manobra você tem em torno dele. Encontrei este artigo de Lutwak et al. sobre Extensões de informações de Fisher e desigualdade de Stam, uma leitura informativa sobre esse assunto. Os artigos da Wikipedia sobre a Fisher Information Metric e a divergência de Jensen-Shannon também são bons para você começar.I

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.