Em 1946, o geofísico e estatístico bayesiano Harold Jeffreys introduziu o que hoje chamamos de divergência Kullback-Leibler e descobriu que, para duas distribuições que são "infinitamente próximas" (esperemos que os caras do Math SE não vejam isso ;-), podemos escrever sua divergência Kullback-Leibler como uma forma quadrática cujos coeficientes são dados pelos elementos da matriz de informações de Fisher. Ele interpretou essa forma quadrática como o elemento de comprimento de uma variedade riemanniana, com as informações de Fisher desempenhando o papel da métrica riemanniana. A partir dessa geometrização do modelo estatístico, ele derivou o prior de Jeffreys como a medida induzida naturalmente pela métrica Riemanniana, e essa medida pode ser interpretada como uma distribuição intrinsecamente uniforme no coletor, embora, em geral, não seja uma medida finita.
Para escrever uma prova rigorosa, você precisará identificar todas as condições de regularidade e cuidar da ordem dos termos de erro nas expansões de Taylor. Aqui está um breve esboço do argumento.
A divergência simétrica de Kullback-Leibler entre duas densidades e é definida comofg
D [ f, g] = ∫( f( x ) - g( x ) ) log( f( X )g( X )) dx.
Se tivermos uma família de densidades parametrizada por ,θ = ( θ1, … , Θk)
D [ p (⋅∣ θ ) , p (⋅∣ θ + Δ θ ) ] = ∫( p ( x , ∣ θ ) - p ( x ∣ θ + Δ θ ) ) log( p ( x ∣ θ )p ( x ∣ θ + Δ θ ))dx,
Δ θ = ( Δ θ 1 , … , Δ θ k ) Δ p ( x ∣ θ ) = p ( x ∣ θ ) - p ( x ∣ θ + Δ θ )
em que . Introduzindo a notação
alguma álgebra simples fornece
Usando a expansão de Taylor para o logaritmo natural, temos
Δ θ = ( Δ θ1, … , Δ θk)Δ p ( x ∣ θ ) = p ( x ∣ θ ) - p ( x ∣ θ + Δ θ ),
D [ p (⋅∣ θ ) , p (⋅∣ θ + Δ θ ) ] = ∫Δ p ( x ∣ θ )p ( x ∣ θ )registro( 1 + Δ p ( x ∣ θ )p ( x ∣ θ )) p(x∣θ)dx.
registro( 1 + Δ p ( x ∣ θ )p ( x ∣ θ )) ≈ Δ p ( x ∣ θ )p ( x ∣ θ ),
portanto,
Mas
Portanto,
em que
D [ p (⋅∣ θ ) , p (⋅∣ θ + Δ θ ) ] ≈ ∫( Δ p ( x ∣ θ )p ( x ∣ θ ))2p ( x ∣ θ )dx.
Δ p ( x ∣ θ )p ( x ∣ θ )≈ 1p ( x ∣ θ )∑i = 1k∂p ( x ∣ θ )∂θEuΔ θEu= ∑i = 1k∂registrop ( x ∣ θ )∂θEuΔ θEu.
D [ p (⋅∣ θ ) , p (⋅∣ θ + Δ θ ) ] ≈ ∑i , j = 1kgeu jΔ θEuΔ θj,
geu j= ∫∂registrop ( x ∣ θ )∂θEu∂registrop ( x ∣ θ )∂θjp ( x ∣ θ )dx.
Este é o artigo original:
Jeffreys, H. (1946). Uma forma invariável para a probabilidade anterior em problemas de estimativa. Proc. Royal Soc. of London, Série A, 186, 453-461.