Diferenças entre a distância Bhattacharyya e divergência KL

33

Estou procurando uma explicação intuitiva para as seguintes perguntas:

Na estatística e na teoria da informação, qual é a diferença entre a distância de Bhattacharyya e a divergência de KL, como medidas da diferença entre duas distribuições de probabilidade discretas?

Eles não têm absolutamente nenhum relacionamento e medem a distância entre duas distribuições de probabilidade de maneira totalmente diferente?

— JewelSue
fonte

36

O coeficiente de Bhattacharyya é definido como

D_{B} (p, q) = \int \sqrt{p (x) q (x)} d x

$D_B(p,q) = \int \sqrt{p(x)q(x)}\,\text{d}x$ e pode ser transformado numa distância

d_{H} (p, q)

$d_H(p,q)$ como

d_{H} (p, q) = {1 - D_{B} (p, q)}^{1 / 2}

$d_H(p,q)=\{1-D_B(p,q)\}^{1/2}$ o qual é chamado adistância Hellinger. Uma conexão entre essadistância de Hellingere adivergência de Kullback-Leibleré

d_{K L} (p ‖ q) \geq 2 d_{H}^{2} (p, q) = 2 {1 - D_{B} (p, q)} .

$d_{KL}(p\|q) \geq 2 d_H^2(p,q) = 2 \{1-D_B(p,q)\}\,.$

No entanto, essa não é a questão: se a distância de Bhattacharyya for definida como então Portanto, a desigualdade entre as duas distâncias são

d_{B} (p, q) \overset{def}{=} - \log D_{B} (p, q),

$d_B(p,q)\stackrel{\text{def}}{=}-\log D_B(p,q)\,,$

\begin{aligned} d_{B} (p, q) = - \log D_{B} (p, q) & = - \log \int \sqrt{p (x) q (x)} d x \\ \overset{def}{=} - \log \int h (x) d x \\ = - \log \int \frac{h (x)}{p (x)} p (x) d x \\ \leq \int - \log {\frac{h (x)}{p (x)}} p (x) d x \\ = \int \frac{- 1}{2} \log {\frac{h^{2} (x)}{p^{2} (x)}} p (x) d x \\ = \int \frac{- 1}{2} \log {\frac{q (x)}{p (x)}} p (x) d x = \frac{1}{2} d_{K L} (p ‖ q) \end{aligned}

$\begin{align*}d_B(p,q)=-\log D_B(p,q)&=-\log \int \sqrt{p(x)q(x)}\,\text{d}x\\ &\stackrel{\text{def}}{=}-\log \int h(x)\,\text{d}x\\ &= -\log \int \frac{h(x)}{p(x)}\,p(x)\,\text{d}x\\ &\le \int -\log \left\{\frac{h(x)}{p(x)}\right\}\,p(x)\,\text{d}x\\ &= \int \frac{-1}{2}\log \left\{\frac{h^2(x)}{p^2(x)}\right\}\,p(x)\,\text{d}x\\ &= \int \frac{-1}{2}\log \left\{\frac{q(x)}{p(x)}\right\}\,p(x)\,\text{d}x= \frac{1}{2}d_{KL}(p\|q) \end{align*}$

d_{K L} (p ‖ q) \geq 2 d_{B} (p, q) .

${d_{KL}(p\|q)\ge 2d_B(p,q)\,.}$ Poder-se-ia então pensar se essa desigualdade decorre da primeira. Acontece ser o oposto: desde

- l o g (x) \geq 1 - x 0 \leq x \leq 1,

$-log(x)\ge 1-x\qquad\qquad 0\le x\le 1\,,$ insira a descrição da imagem aqui

temos a ordem completa

d_{K L} (p ‖ q) \geq 2 d_{B} (p, q) \geq 2 d_{H} (p, q)^{2} .

${d_{KL}(p\|q)\ge 2d_B(p,q)\ge 2d_H(p,q)^2\,.}$

— Xi'an
fonte

2

Brilhante! Essa explicação deve ser a que eu estou procurando ansiosamente. Apenas uma última pergunta: em que caso (ou que tipos de P e Q) a desigualdade se tornará igualdade?

— JewelSue

1

Dado que a função é estritamente convexa, eu assumiria que o único caso de igualdade é quando a razão é constante em .

- \log (\cdot)

$-\log(\cdot)$

p (x) / q (x)

$p(x)/q(x)$

x

$x$

— Xi'an

5

E o único caso em que é constante em é quando .

p (x) / q (x)

$p(x)/q(x)$

x

$x$

p = q

$p=q$

— Xian

8

Não conheço nenhuma relação explícita entre os dois, mas decidi dar uma olhada rápida neles para ver o que eu poderia encontrar. Portanto, isso não é muita resposta, mas mais um ponto de interesse.

Para simplificar, vamos trabalhar sobre distribuições discretas. Podemos escrever a distância BC como

d_{BC} (p, q) = - \ln \sum_{x} (p (x) q (x))^{\frac{1}{2}}

$d_\text{BC}(p,q) = - \ln \sum_x (p(x)q(x))^\frac{1}{2}$

e a divergência KL como

d_{KL} (p, q) = \sum_{x} p (x) \ln \frac{p (x)}{q (x)}

$d_\text{KL}(p,q) = \sum_x p(x)\ln \frac{p(x)}{q(x)}$

Agora não podemos enviar o log para dentro da soma na distância , então vamos tentar puxar o log para fora da divergência : $\text{BC}$ $\text{KL}$

d_{KL} (p, q) = - \ln \prod_{x} {(\frac{q (x)}{p (x)})}^{p (x)}

$d_\text{KL}(p,q) = -\ln \prod_x \left( \frac{q(x)}{p(x)} \right)^{p(x)}$

Vamos considerar o comportamento deles quando é fixo como a distribuição uniforme sobre possibilidades: $p$ $n$

d_{KL} (p, q) = - \ln n - \ln {(\prod_{x} q (x))}^{\frac{1}{n}} d_{BC} (p, q) = - \ln \frac{1}{\sqrt{n}} - \ln \sum_{x} \sqrt{q (x)}

$d_\text{KL}(p,q) = -\ln n - \ln \left(\prod_x q(x)\right)^\frac{1}{n} \qquad d_\text{BC}(p,q) = - \ln \frac{1}{\sqrt{n}} - \ln\sum_x \sqrt{q(x)}$

À esquerda, temos o log de algo semelhante em forma à média geométrica . À direita, temos algo semelhante ao logaritmo da média aritmética . Como eu disse, isso não é muita resposta, mas acho que dá uma intuição clara de como a distância BC e a divergência KL reagem a desvios entre e . $p$ $q$

— Andy Jones
fonte