Tentando complementar as outras respostas ... Que tipo de informação é Fisher? Comece com a função de probabilidade de log
como uma função de para , o espaço do parâmetro. Assumindo algumas condições de regularidade que não discutimos aqui, temos
(escreveremos derivadas com relação ao parâmetro como pontos aqui). A variação é a informação de Fisher
θ θ ∈ Θ E ∂
ℓ(θ)=logf(x;θ)
θθ∈ΘI(θ)=Eθ( ˙ ℓ (θ))2=-Eθ ¨ ℓ (θ)θ ˙ ℓ (θ)=0 ˙ ℓ (θ)E∂∂θℓ(θ)=Eθℓ˙(θ)=0I(θ)=Eθ(ℓ˙(θ))2=−Eθℓ¨(θ)
a última fórmula que mostra que é a curvatura (negativa) da função de probabilidade de log. Geralmente, é encontrado o estimador de probabilidade máxima (mle) de , resolvendo a equação de probabilidade quando as informações de Fisher como a variação da pontuação for grande, a solução para essa equação será muito sensível aos dados, dando esperança à alta precisão da mle. Isso é confirmado pelo menos assintoticamente, sendo a variação assintótica da mle o inverso da informação de Fisher.
θℓ˙( θ ) = 0ℓ˙( θ )
Como podemos interpretar isso? é a informação de probabilidade sobre o parâmetro da amostra. Isso realmente só pode ser interpretado em um sentido relativo, como quando o usamos para comparar as plausibilidades de dois valores possíveis de parâmetros distintos através do teste de razão de verossimilhança . A taxa de alteração da probabilidade de log é a função de pontuação nos diz com que rapidez a probabilidade muda e sua variação quanto isso varia de amostra para amostra, em um determinado parâmetro valor, digamos . A equação (que é realmente surpreendente!)
θ ℓ ( θ 0 ) - ℓ ( θ 1 ) ˙ ℓ ( θ ) I ( θ ) θ 0 I ( θ ) = - E θ ¨ ℓ ( θ ) θ 0 ˙ ℓ ( θ ) | θ = θ 0 θ θ 0ℓ ( θ )θℓ ( θ0 0) - ℓ ( θ1)ℓ˙( θ )Eu( θ )θ0 0
Eu( θ ) = - Eθℓ¨( θ )
nos diz que há uma relação (igualdade) entre a variabilidade na informação (probabilidade) para um determinado valor de parâmetro, , e a curvatura da função de probabilidade para esse valor de parâmetro. Essa é uma relação surpreendente entre a variabilidade (variação) dessa estatística e a mudança esperada na semelhança quando variamos o parâmetro em algum intervalo ao redor (para os mesmos dados). Isso é realmente estranho, surpreendente e poderoso!
θ0 0ℓ˙( θ ) ∣θ = θ0 0θθ0 0
Então, qual é a função de probabilidade? Geralmente pensamos no modelo estatístico como uma família de distribuições de probabilidade para os dados , indexadas pelo parâmetro algum elemento no espaço de parâmetros . Pensamos nesse modelo como verdadeiro se existir algum valor tal forma que os dados realmente tenham a distribuição de probabilidade . Portanto, obtemos um modelo estatístico incorporando a verdadeira distribuição de probabilidade de geração de dadosx θ q θ 0 ∈ q x f ( x ; θ 0 ) f ( x ; θ 0 ){ f( x ; θ ) , θ ∈ Θ }xθΘθ0 0∈ Θxf( x ; θ0 0)f( x ; θ0 0)em uma família de distribuições de probabilidade. Mas, é claro que essa incorporação pode ser feita de muitas maneiras diferentes, e cada uma dessas incorporação será um modelo "verdadeiro" e fornecerão funções de probabilidade diferentes. E, sem essa incorporação, não há função de probabilidade. Parece que realmente precisamos de ajuda, alguns princípios sobre como escolher sabiamente uma incorporação!
Então o que isso quer dizer? Isso significa que a escolha da função de probabilidade nos diz como esperaríamos que os dados mudassem, se a verdade mudasse um pouco. Mas, isso realmente não pode ser verificado pelos dados, pois eles fornecem apenas informações sobre a verdadeira função do modelo que realmente gerou os dados, e não nada sobre todos os outros elementos no modelo escolhido. Dessa forma, vemos que a escolha da função de verossimilhança é semelhante à escolha de um anterior na análise bayesiana, injeta informações não relacionadas aos dados na análise. Vejamos isso em um exemplo simples (um tanto artificial) e vejamos o efeito de incorporar em um modelo de maneiras diferentes.f ( x ; θ 0 )f( x ; θ0 0)f( x ; θ0 0)
Suponhamos que sejam iid como . Portanto, essa é a verdadeira distribuição geradora de dados. Agora, vamos incorporar isso em um modelo de duas maneiras diferentes, modelo A e modelo B.
você pode verificar se isso coincide com . N ( μ = 10 , σ 2 = 1 ) A : X 1 , ... , X n iid N ( μ , σ 2 = 1 ) , μ ∈ RX1, … , XnN( μ = 10 , σ2= 1 )μ = 10
A:X1,…,Xn iid N(μ,σ2=1),μ∈RB:X1,…,Xn iid N(μ,μ/10),μ>0
μ=10
As funções de probabilidade de log se tornam
ℓA(μ)=−n2log(2π)−12∑i(xi−μ)2ℓB(μ)=−n2log(2π)−n2log(μ/10)−102∑i(xi−μ)2μ
A pontuação funciona: (derivadas de probabilidade de log):
e as curvaturas
assim, as informações de Fisher realmente dependem da incorporação. Agora, calculamos as informações de Fisher no valor verdadeiro ,
portanto, as informações de Fisher sobre o parâmetro são um pouco maiores no modelo B.
ℓ˙A(μ)=n(x¯−μ)ℓ˙B(μ)=−n2μ−102∑i(xiμ)2−15n
ℓ¨A(μ)=−nℓ¨B(μ)=n2μ2+102∑i2x2iμ3
μ=10IA(μ=10)=n,IB(μ=10)=n⋅(1200+20202000)>n
Isso ilustra que, em certo sentido, as informações de Fisher nos dizem com que rapidez as informações dos dados sobre o parâmetro seriam alteradas se o parâmetro governante fosse alterado da maneira postulada pela incorporação em uma família de modelos . A explicação de informações mais altas no modelo B é que nossa família de modelos B postula que, se a expectativa aumentasse, a variação também aumentaria . Para que, no modelo B, a variação da amostra também leve informações sobre , o que não será feito no modelo A.μ
Além disso, este exemplo ilustra que realmente precisamos de alguma teoria para nos ajudar a construir famílias de modelos.