Não me sinto confortável com as informações de Fisher, o que elas medem e como elas são úteis. Também o relacionamento com o limite de Cramer-Rao não é aparente para mim.
Alguém pode, por favor, dar uma explicação intuitiva desses conceitos?
Não me sinto confortável com as informações de Fisher, o que elas medem e como elas são úteis. Também o relacionamento com o limite de Cramer-Rao não é aparente para mim.
Alguém pode, por favor, dar uma explicação intuitiva desses conceitos?
Respostas:
Aqui eu explico por que a variação assintótica do estimador de máxima verossimilhança é o limite inferior de Cramer-Rao. Espero que isso forneça algumas dicas sobre a relevância das informações de Fisher.
A inferência estatística prossegue com o uso de uma função de probabilidade que você constrói a partir dos dados. A estimativa pontual é o valor que maximiza . O estimador é uma variável aleatória, mas ajuda a perceber que a função de probabilidade é uma "curva aleatória".θ L ( θ ) θ L ( θ )
Aqui assumimos dados iid extraídos de uma distribuição e definimos a probabilidade L ( θ ) = 1
O parâmetro possui a propriedade de maximizar o valor da probabilidade "verdadeira", . No entanto, a função de probabilidade "observada" que é construída a partir dos dados está um pouco "desligada" da verdadeira probabilidade. No entanto, como você pode imaginar, à medida que o tamanho da amostra aumenta, a probabilidade "observada" converge para o formato da verdadeira curva de probabilidade. O mesmo se aplica à derivada da probabilidade em relação ao parâmetro, a função de pontuação . (Resumindo a história, as informações de Fisher determinam a rapidez com que a função de pontuação observada converge para o formato da função de pontuação verdadeira.E L ( θ ) L ( θ ) ∂ L / ∂ θ
Em um grande tamanho de amostra, assumimos que nossa estimativa de probabilidade máxima está muito próxima de . Ampliamos o zoom em um pequeno bairro em torno de e para que a função de probabilidade seja "localmente quadrática". qq q
Lá, é o ponto no qual a função de pontuação cruza a origem. Nesta pequena região, tratamos a função de pontuação como uma linha , uma com inclinação e interceptação aleatória em . Sabemos pela equação uma linha que ∂L/∂θumbθ
ou
Pela consistência do estimador de MLE, sabemos que
no limite.
Portanto, assintoticamente
Acontece que a inclinação varia muito menos que a interceptação e, assintoticamente, podemos tratar a função de pontuação como tendo uma inclinação constante em um pequeno bairro ao redor de . Assim podemos escrever
Então, quais são os valores de e ? Acontece que, devido a uma maravilhosa coincidência matemática, elas são exatamente a mesma quantidade (sinal de módulo a menos), a informação de Fisher.n V a r ( b )
Portanto,
Uma maneira de entender as informações do fisher é pela seguinte definição:
As informações de Fisher podem ser escritas dessa maneira sempre que a densidade for duas vezes diferenciável. Se o espaço de amostra não depender do parâmetro , podemos usar a fórmula integral de Leibniz para mostrar que o primeiro termo é zero (diferencie os dois lados de duas vezes e você obtém zero), e o segundo termo é a definição "padrão". Aceitarei o caso quando o primeiro termo for zero. Os casos em que não é zero não são muito úteis para entender as informações de Fisher.
Agora, quando você faz uma estimativa de probabilidade máxima (insira "condições de regularidade" aqui), você define
E resolva para . Portanto, a segunda derivada diz com que rapidez o gradiente está mudando e, em certo sentido, "quão longe" pode se afastar do MLE sem fazer uma mudança apreciável no lado direito da equação acima. Outra maneira de pensar é imaginar uma "montanha" desenhada no papel - essa é a função de probabilidade de log. A resolução da equação MLE acima indica onde o pico desta montanha está localizado em função da variável aleatória . A segunda derivada mostra como a montanha é íngreme - o que, em certo sentido, mostra como é fácil encontrar o pico da montanha. As informações de Fisher provêm da inclinação esperada do pico e, portanto, têm um pouco de interpretação de "pré-dados".θ x
Uma coisa que ainda acho curiosa é que é quão acentuada é a probabilidade logarítmica e não quão acentuada é alguma outra função monotônica da probabilidade (talvez relacionada a funções de pontuação "apropriadas" na teoria da decisão? Ou talvez aos axiomas de consistência da entropia ?).
As informações de Fisher também "aparecem" em muitas análises assintóticas, devido ao que é conhecido como aproximação de Laplace. Isso basicamente devido ao fato de que qualquer função com um aumento máximo único "bem-arredondado" para uma potência cada vez maior entra em uma função gaussiana (semelhante ao Teorema do Limite Central, mas um pouco mais geral). Portanto, quando você tem uma amostra grande, está efetivamente nessa posição e pode escrever:
E quando você expandir, expanda a probabilidade de log sobre o MLE:
O que equivale à geralmente boa aproximação de substituir uma soma por uma integral, mas isso exige que os dados sejam independentes. Portanto, para grandes amostras independentes (dado ), você pode ver que as informações de Fisher são as variáveis do MLE, para vários valores do MLE.
Este é o artigo mais intuitivo que eu vi até agora:
O limite é explicado por uma analogia de Adão e Eva no Jardim do Éden jogando uma moeda para ver quem come a fruta e eles se perguntam o tamanho de uma amostra necessária para atingir um certo nível de precisão em sua estimativa, e eles descobrem esse limite ...
Bela história com uma mensagem profunda sobre a realidade.
Embora as explicações fornecidas acima sejam muito interessantes e eu gostei de analisá-las, sinto que a natureza do limite inferior de Cramer-Rao foi melhor explicada para mim de uma perspectiva geométrica. Essa intuição é um resumo do conceito de elipses de concentração do capítulo 6 do livro de Scharf sobre Statistical Signal Processing .
Considere qualquer estimador imparcial de . Além disso, suponha que o estimador tenha uma distribuição gaussiana com covariância . Sob essas condições, a distribuição de é proporcional a:
.
Agora pense nos gráficos de contorno dessa distribuição para . Qualquer restrição do limite superior da probabilidade de (isto é, ) resultará em um elipsóide centrado em com raio fixo . É fácil mostrar que existe uma relação individual entre o raio do elipsóide e a probabilidade desejada . Em outras palavras, está próximo a dentro de um elipsóide determinado pelo raio com probabilidade. Este elipsóide é chamado de elipsóide de concentração.
Considerando a descrição acima, podemos dizer o seguinte sobre o CRLB. Entre todos os estimadores imparciais, o CRLB representa um estimador com covariância que, para probabilidade fixa de "proximidade" (como definido acima), tem a menor concentração elipsóide. A figura abaixo fornece uma ilustração 2D (inspirada na ilustração no livro de Scharf ).