Por que a divergência KL não é negativa?

Da perspectiva da teoria da informação, tenho uma compreensão tão intuitiva:

Digamos que existem dois conjuntos $A$ e $B$ que são compostos do mesmo conjunto de elementos rotulados por $x$ . $p(x)$ e $q(x)$ são distribuições de probabilidade diferentes sobre o conjunto $A$ e $B$ respectivamente.

Do ponto de vista da teoria da informação, $\log_{2}(P(x))$ é a menor quantidade de bits requerida para que a gravação de um elemento $x$ para ensemble $A$ . De modo que a expectativa

\sum_{x \in e n s e m b l e} - p (x) \ln (p (x))

$\sum_{x \in ensemble}-p(x)\ln(p(x))$ pode ser interpretada como, pelo menos quantos bits que é necessário para a gravação de um elemento em

A

$A$ em média.

Como essa fórmula coloca um limite inferior nos bits de que precisamos, em média, de modo que, para um conjunto diferente $B$ que gera uma distribuição de probabilidade diferente $q(x)$ , o limite que ele fornece para cada elemento $x$ certamente não irá morder. dada por $p(x)$ , o que significa tomar a expectativa,

\sum_{x \in e n s e m b l e} - p (x) \ln (q (x))

$\sum_{x\in ensemble}-p(x)\ln(q(x))$ este comprimento médio será certamente maior do que o anterior, o que leva a

Eu não coloquei

aqui, pois

são diferentes.

\sum_{x \in e n s e m b l e} p (x) \frac{\ln (p (x))}{\ln (q (x))} > 0

$\sum_{x\in ensemble }p(x)\frac{\ln(p(x))}{\ln(q(x))} > 0$

\geq

$\ge$

p (x)

$p(x)$

q (x)

$q(x)$

Esta é a minha compreensão intuitiva, existe uma maneira puramente matemática de provar que a divergência de KL não é negativa? O problema pode ser afirmado como:

Dado que e são positivos acima da linha real, e , . Prove $p(x)$ $q(x)$ $\int_{-\infty}^{+\infty}p(x)dx = 1$ $\int_{-\infty}^{+\infty}q(x)dx = 1$ não é negativo.

\int_{- \infty}^{+ \infty} p (x) \ln \frac{p (x)}{q (x)}

$\int_{-\infty}^{+\infty}p(x)\ln\frac{p(x)}{q(x)}$

Como isso pode ser provado? Ou isso pode ser provado sem condições extras?

information-theory kullback-leibler

— meTchaikovsky
fonte

Se você entende a prova da desigualdade de Fano , é fácil derivar a não-negatividade da entropia relativa.

— Lerner Zhang

Prova 1:

Primeira nota que para todos . $\ln a \leq a-1$ $a \gt 0$

Agora mostraremos que que significa que $-D_{KL}(p||q) \leq 0$ $D_{KL}(p||q) \geq 0$

\begin{aligned} - D (p | | q) & = - \sum_{x} p (x) \ln \frac{p (x)}{q (x)} \\ = \sum_{x} p (x) \ln \frac{q (x)}{p (x)} \\ \overset{(a)}{\leq} \sum_{x} p (x) (\frac{q (x)}{p (x)} - 1) \\ = \sum_{x} q (x) - \sum_{x} p (x) \\ = 1 - 1 \\ = 0 \end{aligned}

$\begin{align} -D(p||q)&=-\sum_x p(x)\ln \frac{p(x)}{q(x)}\\ &= \sum_x p(x)\ln \frac{q(x)}{p(x)}\\ &\stackrel{\text{(a)}}{\leq} \sum_x p(x)\left(\frac{q(x)}{p(x)}-1\right)\\ &=\sum_x q(x) - \sum_x p(x)\\ &= 1 - 1\\ &= 0 \end{align}$

$\ln$

- \sum_{x} p (x) \log_{2} p (x) \leq - \sum_{x} p (x) \log_{2} q (x)

$-\sum_x p(x) \log_2 p(x) \leq -\sum_x p(x)\log_2 q(x)$

\sum_{x} p (x) \log_{2} p (x) - \sum_{x} p (x) \log_{2} q (x) \geq 0 \sum_{x} p (x) \log_{2} \frac{p (x)}{q (x)} \geq 0

$\sum_x p(x) \log_2 p(x) - \sum_x p(x)\log_2 q(x)\geq 0 \\ \sum_x p(x)\log_2 \frac{p(x)}{q(x)}\geq 0$

A razão pela qual não incluo isso como uma prova separada é porque, se você me pedisse para provar a desigualdade de Gibbs, teria que começar pela não-negatividade da divergência de KL e fazer a mesma prova do topo.

\sum_{i = 1}^{n} a_{i} \log_{2} \frac{a_{i}}{b_{i}} \geq (\sum_{i = 1}^{n} a_{i}) \log_{2} \frac{\sum_{i = 1}^{n} a_{i}}{\sum_{i = 1}^{n} b_{i}}

$\sum_{i=1}^{n} a_i \log_2 \frac{a_i}{b_i} \geq \left(\sum_{i=1}^{n} a_i\right)\log_2\frac{\sum_{i=1}^{n} a_i}{\sum_{i=1}^{n} b_i}$

$D_{KL}(p||q) \geq 0$

\begin{aligned} D (p | | q) & = \sum_{x} p (x) \log_{2} \frac{p (x)}{q (x)} \\ \overset{(b)}{\geq} (\sum_{x} p (x)) \log_{2} \frac{\sum_{x} p (x)}{\sum_{x} q (x)} \\ = 1 \cdot \log_{2} \frac{1}{1} \\ = 0 \end{aligned}

$\begin{align} D(p||q)&=\sum_x p(x)\log_2 \frac{p(x)}{q(x)}\\ &\stackrel{\text{(b)}}{\geq} \left(\sum_x p(x)\right)\log_2\frac{\sum_x p(x)}{\sum_x q(x)}\\ &=1 \cdot \log_2 \frac{1}{1}\\ &=0 \end{align}$

where we have used the Log sum inequality at (b).

Proof 3:

(Taken from the book "Elements of Information Theory" by Thomas M. Cover and Joy A. Thomas)

\begin{aligned} - D (p | | q) & = - \sum_{x} p (x) \log_{2} \frac{p (x)}{q (x)} \\ = \sum_{x} p (x) \log_{2} \frac{q (x)}{p (x)} \\ \overset{(c)}{\leq} \log_{2} \sum_{x} p (x) \frac{q (x)}{p (x)} \\ = \log_{2} 1 \\ = 0 \end{aligned}

$\begin{align} -D(p||q)&=-\sum_x p(x)\log_2 \frac{p(x)}{q(x)}\\ &= \sum_x p(x)\log_2 \frac{q(x)}{p(x)}\\ &\stackrel{\text{(c)}}{\leq} \log_2 \sum_x p(x)\frac{q(x)}{p(x)}\\ &=\log_2 1\\ &=0 \end{align}$

where at (c) we have used Jensen's inequality and the fact that $\log$ is a concave function.

— Andreas G.
fonte