Ok, graças à excelente resposta @ Mur1lo, agora tenho uma melhor compreensão e gostaria de fazer minha própria tentativa de tornar esse conceito abstrato o mais concreto possível.
Suponha que tenhamos uma amostra de 5 resultados de sorteio de moedas. Assumimos que eles são amostrados de uma população com distribuição de Bernoulli com o parâmetro trueπ0.
Quando olhamos para um sorteio específico com resultado x3=1, podemos calcular a probabilidade logarítmica deste paciente de uma distribuição de Bernoulli com todos os tipos de valores de parâmetros, por exemploπ=0.2 ou π=0.9e assim por diante. portanto, a probabilidade logarítmica é uma função que estima a probabilidade dex3 para cada valor possível de π.
LL(π|x3)=x3ln(π)+(1−x3)ln(1−π)
O que significa simplesmente que se x3=1 a probabilidade disso era π e se for 0, a probabilidade disso é 1−π.
Se assumirmos a independência entre os sorteios das moedas, teremos uma função "média" que representa a probabilidade logarítmica de toda a amostra de n = 5 sorteios de moedas.
LL(π|X)=∑xiln(π)+(n−∑(xi))ln(1−π)
Queremos encontrar o máximo de LL(π|X)- a mle =πmle.
A função de pontuação u(π)é um vetor dos derivativos para cada parâmetro da probabilidade logarítmica. Felizmente, no nosso caso, é um escalar simples, pois há apenas um parâmetro. Sob algumas condições, isso nos ajudará a encontrarπmle, pois nesse ponto a função de pontuação seria u(πmle)=0. Podemos calcular a função de pontuação de observação para uma única observação (sorteio de moedas):
u(π|x3)=x3π−1−x31−π
e a função de pontuação da amostra de n = 5 pacientes:
u(π|X)=∑xiπ−n−∑xi1−π
quando definimos esta função mais recente como 0, obtemos πmle.
MAS, a amostra específica de 5 empates não tem nada a ver com a expectativa da função de pontuação! A expectativa é o valor da função de escore de observação para cada valor possível de x, multiplicado pela probabilidade desse valor, que é a função de densidade! No nosso caso, x pode assumir apenas 2 valores: 0 e 1. E a função densidade é como assumimos ser um Bernoulli com parâmetroπ0:
E(u(π|xi))=∑x(xπ−1−x1−π)πx0(1−π0)1−x=π0π−1−π01−π
e é claro que ele zera quando avaliado no parâmetro true π0. A interpretação intuitiva é: Para cada valor deπ, qual é a taxa média de mudança na probabilidade?
A matriz de informações é a variação da probabilidade - qual será a sensibilidade da nossa solução para diferentes dados? (veja esta resposta ).
I(π|xi)=var(u(π|xi))=var(xiπ−1−xi1−π)=var(xi−ππ(1−π))=var(xi)π2(1−π)2=π0(1−π0)π2(1−π)2
e quando avaliado no parâmetro true π0 simplifica para:
I(π0|xi)=1π0(1−π0)
(consulte as notas do washington edu para obter mais detalhes).
Surpreendentemente, há outra maneira de medir o quão sensível a probabilidade seria em um certo π! essa é a expectativa da curvatura = Hessiana = segunda derivada. Quanto mais inclinada for a nossa probabilidade, mais precisos seremos. Veja detalhes no blog de mark reid