Conexão entre a métrica de Fisher e a entropia relativa


20

Alguém pode provar a seguinte conexão entre a métrica de informações de Fisher e a entropia relativa (ou divergência de KL) de maneira rigorosa e puramente matemática?

D(p(,a+da)p(,a))=12gi,jdaidaj+(O(da3)
onde a=(a1,,an),da=(da1,,dan) ,
gi,j=i(logp(x;a))j(logp(x;a)) p(x;a) dx
e gi,jdaidaj:=i,jgi,jdaidaj é a convenção de somatório de Einstein.

Eu encontrei o exposto no bom blog de John Baez, onde Vasileios Anagnostopoulos diz sobre isso nos comentários.


1
Caro Kumara: Para esclarecer, ajudaria a explicar melhor sua notação, especificamente o significado de gi,j . Além disso, acho que sua expressão está perdendo um fator constante de 1/2 na frente do primeiro termo do lado direito da equação da tela. Observe que o que o próprio Kullback chamou de divergência (usando a notação J(,) ) é a versão simétrica do que é conhecido chamado de divergência KL, ou seja, J(p,q)=D(pq)+D(qp) . A divergência KL foi denotada I(,) nos escritos de Kullback. Isso explica o fator de 1/2 também. Felicidades.
cardeal

Respostas:


19

Em 1946, o geofísico e estatístico bayesiano Harold Jeffreys introduziu o que hoje chamamos de divergência Kullback-Leibler e descobriu que, para duas distribuições que são "infinitamente próximas" (esperemos que os caras do Math SE não vejam isso ;-), podemos escrever sua divergência Kullback-Leibler como uma forma quadrática cujos coeficientes são dados pelos elementos da matriz de informações de Fisher. Ele interpretou essa forma quadrática como o elemento de comprimento de uma variedade riemanniana, com as informações de Fisher desempenhando o papel da métrica riemanniana. A partir dessa geometrização do modelo estatístico, ele derivou o prior de Jeffreys como a medida induzida naturalmente pela métrica Riemanniana, e essa medida pode ser interpretada como uma distribuição intrinsecamente uniforme no coletor, embora, em geral, não seja uma medida finita.

Para escrever uma prova rigorosa, você precisará identificar todas as condições de regularidade e cuidar da ordem dos termos de erro nas expansões de Taylor. Aqui está um breve esboço do argumento.

A divergência simétrica de Kullback-Leibler entre duas densidades e é definida comofg

D[f,g]=(f(x)g(x))log(f(x)g(x))dx.

Se tivermos uma família de densidades parametrizada por ,θ=(θ1,,θk)

D[p(θ),p(θ+Δθ)]=(p(x,θ)p(xθ+Δθ))log(p(xθ)p(xθ+Δθ))dx,
Δ θ = ( Δ θ 1 , , Δ θ k ) Δ p ( x θ ) = p ( x θ ) - p ( x θ + Δ θ ) em que . Introduzindo a notação alguma álgebra simples fornece Usando a expansão de Taylor para o logaritmo natural, temos Δθ=(Δθ1,,Δθk)
Δp(xθ)=p(xθ)p(xθ+Δθ),
D[p(θ),p(θ+Δθ)]=Δp(xθ)p(xθ)log(1+Δp(xθ)p(xθ))p(xθ)dx.
log(1+Δp(xθ)p(xθ))Δp(xθ)p(xθ),
portanto, Mas Portanto, em que
D[p(θ),p(θ+Δθ)](Δp(xθ)p(xθ))2p(xθ)dx.
Δp(xθ)p(xθ)1p(xθ)i=1kp(xθ)θiΔθi=i=1klogp(xθ)θiΔθi.
D[p(θ),p(θ+Δθ)]i,j=1kgijΔθiΔθj,
gij=logp(xθ)θilogp(xθ)θjp(xθ)dx.

Este é o artigo original:

Jeffreys, H. (1946). Uma forma invariável para a probabilidade anterior em problemas de estimativa. Proc. Royal Soc. of London, Série A, 186, 453-461.


1
Muito obrigado pela boa escrita. Seria bom se você pudesse ajudar nisso também.
Kumara #

Sim, você disse com razão. Devo sair dessa "armadilha da abstração".
Kumara

@zen Você está usando a expansão Taylor do logaritmo sob a integral, por que isso é válido?
Sus20200

1
Parece crucial que você comece com a divergência simétrica de KL, em oposição à divergência padrão de KL. O artigo da Wikipedia não faz menção à versão simétrica e, portanto, pode estar incorreta. pt.wikipedia.org/wiki/Kullback%E2%80%93Leibler_divergence
Comandante cirúrgico

11

Prova de divergência KL usual (não simétrica)

A resposta do Zen usa a divergência simétrica de KL, mas o resultado também se aplica à forma usual, pois se torna simétrico para distribuições infinitesimalmente próximas.

Aqui está uma prova de distribuições discretas parametrizadas por um escalar (porque sou preguiçoso), mas pode ser reescrita facilmente para distribuições contínuas ou um vetor de parâmetros:θ

D(pθ,pθ+dθ)=pθlogpθpθlogpθ+dθ .
Taylor-expandindo o último termo: Supondo algumas regularidades, usei os dois resultados:
=pθlogpθpθlogpθ= 0dθpθddθlogpθ= 0 12dθ2pθd2dθ2logpθ=pθ(ddθlogpθ)2 +O(dθ3)=12dθ2pθ(ddθlogpθ)2Fisher information+O(dθ3).
:pθddθlogpθ=ddθpθ=ddθpθ=0,

:pθd2dθ2logpθ=pθddθ(1pθdpθdθ)=pθ[1pθd2pθdθ(1pθdpθdθ)2]=d2pθdθ2pθ(1pθdpθdθ)2=d2dθ2pθ= 0pθ(ddθlogpθ)2.

4

Você pode encontrar uma relação semelhante (para um parâmetro unidimensional) na equação (3) do artigo a seguir

D. Guo (2009), Entropia relativa e função de pontuação: novas informações - relações de estimativa por meio de perturbação aditiva arbitrária , em Proc. Simpósio Internacional IEEE sobre Teoria da Informação , 814–818. ( link estável ).

Os autores referem-se a

S. Kullback, Teoria da Informação e Estatística . Nova York: Dover, 1968.

para uma prova desse resultado.


1
Uma versão multivariada da equação (3) desse artigo é comprovada no texto citado de Kullback nas páginas 27-28. O constante parece ter desaparecido na pergunta do OP. :)1/2
cardeal
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.