Qual é o valor máximo da divergência Kullback-Leibler (KL)

14

Vou usar a divergência KL no meu código python e recebi este tutorial .

Nesse tutorial, implementar a divergência de KL é bastante simples.

kl = (model * np.log(model/actual)).sum()

Pelo que entendi, a distribuição de probabilidade de modele actualdeve ser <= 1.

Minha pergunta é: qual é o limite máximo / valor máximo possível de k ?. Eu preciso saber o valor máximo possível de kl distance quanto ao limite máximo no meu código.

machine-learning distance kullback-leibler

— user46543
fonte

Isso é duplicado do stats.stackexchange.com/q/333877/103153 #

— Lerner Zhang

16

Ou mesmo com o mesmo suporte, quando uma distribuição tem uma cauda muito mais gorda que a outra. Tome quando depois e Existem outras distâncias que permanecem limitadas, como

K L (P | | Q) = \int p (x) \log (\frac{p (x)}{q (x)}) d x

$KL(P\vert\vert Q) = \int p(x)\log\left(\frac{p(x)}{q(x)}\right) \,\text{d}x$

p (x) = \overset{Cauchy density}{\overset{⏞}{\frac{1}{π} \frac{1}{1 + x^{2}}}} q (x) = \overset{Normal density}{\overset{⏞}{\frac{1}{\sqrt{2 π}} \exp {- x^{2} / 2}}}

$p(x)=\overbrace{\frac{1}{\pi}\,\frac{1}{1+x^2}}^\text{Cauchy density}\qquad q(x)=\overbrace{\frac{1}{\sqrt{2\pi}}\,\exp\{-x^2/2\}}^\text{Normal density}$

K L (P | | Q) = \int \frac{1}{π} \frac{1}{1 + x^{2}} \log p (x) d x + \int \frac{1}{π} \frac{1}{1 + x^{2}} [\log (2 π) / 2 + x^{2} / 2] d x

$KL(P\vert\vert Q) = \int \frac{1}{\pi}\,\frac{1}{1+x^2} \log p(x) \,\text{d}x + \int \frac{1}{\pi}\,\frac{1}{1+x^2} [\log(2\pi)/2+x^2/2]\,\text{d}x$

\int \frac{1}{π} \frac{1}{1 + x^{2}} x^{2} / 2 d x = + \infty

$\int \frac{1}{\pi}\,\frac{1}{1+x^2} x^2/2\,\text{d}x=+\infty$

a distância , equivalente à distância total da variação, $L¹$
as distâncias de Wasserstein
a distância Hellinger

— Xi'an
fonte

1

Muito boa observação @ Xi'an

— Carlos Campos

Obrigado @ Xi'an, isso significa que até a soma de todos os compartimentos para ambas as distribuições é = 1, a divergência kl não tem um limite máximo? você tem outras opções de função de distância para duas distribuições de probabilidade que definiram limite máximo / limite estático?

— user46543

P é absolutamente contínuo em relação a Q neste caso?

— Sangwoong Yoon 5/04/19

Em qual "caso"? O KL não é definido como tal para distribuições que não são absolutamente contínuas entre si, acredito.

— Xian

12

Para distribuições que não têm o mesmo suporte, a divergência de KL não é limitada. Veja a definição:

K L (P | | Q) = \int_{- \infty}^{\infty} p (x) \ln (\frac{p (x)}{q (x)}) d x

$KL(P\vert\vert Q) = \int_{-\infty}^{\infty} p(x)\ln\left(\frac{p(x)}{q(x)}\right) dx$

se P e Q não têm o mesmo suporte, existe algum ponto que e , fazendo com que KL vá para o infinito. Isso também é aplicável a distribuições discretas, que é o seu caso. $x'$ $p(x') \neq 0$ $q(x') = 0$

Edit: Talvez uma melhor escolha para medir a divergência entre distribuições de probabilidade seja a distância de Wasserstein, que é uma métrica e tem melhores propriedades do que a divergência KL. Tornou-se bastante popular devido a suas aplicações em aprendizado profundo (consulte redes WGAN)

— Carlos Campos
fonte

Obrigado @ carlos-campos minha distribuição, tanto a atual quanto a modelo, têm a mesma condição que é a soma de todas as posições = 1. Isso significa que minha divergência de Kl ainda não tem um limite máximo? Vou olhar à distância wassertein

— user46543

a distância de Wasserstein ou do motor da Terra tem um limite máximo explícito? porque eu preciso disso.

— user46543

@ user46543 Wasserstein distância pode ser tão alta quanto

\infty

$\infty$

— Mark L. Stone

Oi @ MarkL.Stone, para que não haja função de distância para calcular a distância entre duas distribuições de probabilidade que tem o limite máximo estático? por exemplo, enquanto duas distribuições de probabilidade têm soma de 1 e o limite máximo da distância será 1. Estou correto?

— user46543

3

Para adicionar as excelentes respostas de Carlos e Xi'an , também é interessante notar que uma condição suficiente para que a divergência de KL seja finita é que ambas as variáveis aleatórias tenham o mesmo suporte compacto e que a densidade de referência seja limitada . Esse resultado também estabelece um limite implícito para o máximo da divergência de KL (consulte o teorema e a prova abaixo).

Teorema: Se as densidades e têm o mesmo suporte compacto e a densidade é delimitada nesse suporte (ou seja, possui um limite superior finito), então . $p$ $q$ $\mathscr{X}$ $p$ $KL(P||Q) < \infty$

Prova: Como possui suporte compacto isso significa que há algum valor positivo positivo: $q$ $\mathscr{X}$

\underline{q} \equiv inf_{x \in X} q (x) > 0.

$\underline{q} \equiv \inf_{x \in \mathscr{X}} q(x) > 0.$

Da mesma forma, como possui suporte compacto isso significa que há algum valor supremo positivo: $p$ $\mathscr{X}$

\bar{p} \equiv sup_{x \in X} p (x) > 0.

$\bar{p} \equiv \sup_{x \in \mathscr{X}} p(x) > 0.$

Além disso, como essas duas densidades estão no mesmo suporte e o último é limitado, temos . Isso significa que: $0 < \underline{q} \leqslant \bar{p} < \infty$

sup_{x \in X} \ln (\frac{p (x)}{q (x)}) ⩽ \ln (\bar{p}) - \ln (\underline{q}) .

$\sup_{x \in \mathscr{X}} \ln \Bigg( \frac{p(x)}{q(x)} \Bigg) \leqslant \ln ( \bar{p}) - \ln(\underline{q}).$

Agora, deixando ser o último limite superior, que têm claramente assim naquela: $\underline{L} \equiv \ln ( \bar{p}) - \ln(\underline{q})$ $0 \leqslant \underline{L} < \infty$

\begin{aligned} K L (P | | Q) & = \int_{X} \ln (\frac{p (x)}{q (x)}) p (x) d x \\ ⩽ sup_{x \in X} \ln (\frac{p (x)}{q (x)}) \int_{X} p (x) d x \\ ⩽ (\ln (\bar{p}) - \ln (\underline{q})) \int_{X} p (x) d x \\ = \underline{L} < \infty . \end{aligned}

$\begin{equation} \begin{aligned} KL(P||Q) &= \int \limits_{\mathscr{X}} \ln \Bigg( \frac{p(x)}{q(x)} \Bigg) p(x) dx \\[6pt] &\leqslant \sup_{x \in \mathscr{X}} \ln \Bigg( \frac{p(x)}{q(x)} \Bigg) \int \limits_{\mathscr{X}} p(x) dx \\[6pt] &\leqslant (\ln ( \bar{p}) - \ln(\underline{q})) \int \limits_{\mathscr{X}} p(x) dx \\[6pt] &= \underline{L} < \infty. \\[6pt] \end{aligned} \end{equation}$

Isso estabelece o limite superior necessário, o que prova o teorema. $\blacksquare$

— Restabelecer Monica
fonte

O resultado está correto, mas a restrição é pesada: uma densidade Beta não possui suporte compacto quando .

B (α, β)

${\cal B}(\alpha,\beta)$

max (α, β) > 1

$\max(\alpha,\beta)>1$

— Xi'an

Isso é verdade: afinal, é apenas uma condição suficiente. Condições suficientes mais fracas são bem-vindas!

— Reintegrar Monica