Você pode ver o Capítulo 3 de Devroye, Gyorfi e Lugosi, Uma teoria probabilística do reconhecimento de padrões , Springer, 1996. Veja, em particular, a seção sobre divergências .f
ff divergências podem ser vistas como uma generalização de Kullback-Leibler (ou, alternativamente, a KL pode ser vista como um caso especial de uma divergência).f
A forma geral é
Df(p,q)=∫q(x)f(p(x)q(x))λ(dx),
onde é uma medida que domina as medidas associadas com e e é uma função que satisfaça convexa . (Se e forem densidades em relação à medida de Lebesgue, basta substituir a notação por e você estará pronto.)p q f ( ⋅ ) f ( 1 ) = 0 p ( x ) q ( x ) d x λ ( d x )λpqf(⋅)f(1)=0p(x)q(x)dxλ(dx)
Recuperamos o KL usando . Podemos obter a diferença de Hellinger via e obtemos a variação total ou a distância assumindo. Este último dáf ( x ) = ( 1 - √f(x)=xlogxL1f(x)= 1f(x)=(1−x−−√)2L1f(x)=12|x−1|
DTV(p,q)=12∫|p(x)−q(x)|dx
Observe que este último, pelo menos, fornece uma resposta finita.
Em outro pequeno livro chamado Density Estimation: The ViewL1 , Devroye defende fortemente o uso dessa última distância devido às suas muitas propriedades agradáveis de invariância (entre outras). Este último livro é provavelmente um pouco mais difícil de entender do que o anterior e, como o título sugere, um pouco mais especializado.
Adendo : Por meio dessa pergunta , percebi que parece que a medida que @Didier propõe é (até uma constante) conhecida como divergência de Jensen-Shannon. Se você seguir o link para a resposta fornecida nessa pergunta, verá que a raiz quadrada dessa quantidade é na verdade uma métrica e foi anteriormente reconhecida na literatura como um caso especial de divergência . Achei interessante que parecemos ter "reinventado" coletivamente a roda (muito rapidamente) através da discussão desta questão. A interpretação que dei no comentário abaixo, a resposta de @ Didier também foi anteriormente reconhecida. Por toda parte, meio arrumado, na verdade.f