Como interpretar entropia diferencial?

Li recentemente este artigo sobre a entropia de uma distribuição de probabilidade discreta. Ele descreve uma boa maneira de pensar em entropia como o número esperado de bits (pelo menos ao usar o $\log_2$ em sua definição de entropia) necessário para codificar uma mensagem quando sua codificação é ideal, dada a distribuição de probabilidade das palavras que você usa.

No entanto, quando que se estende ao caso contínuo como aqui eu acredito que esta maneira de pensar pausas para baixo, uma vez que $\sum_x p(x) = \infty$ para qualquer distribuição de probabilidade contínua $p(x)$ (por favor, corrija-me se isso é errado), então eu estava se perguntando se existe uma boa maneira de pensar sobre o que significa entropia contínua, assim como no caso discreto.

entropy information-theory

— dippynark
fonte

Você tentou ler artigos da Wikipedia sobre entropia e entropia diferencial?

— precisa saber é o seguinte

Uma distribuição contínua não possui uma função de massa de probabilidade. O análogo no caso contínua é o integral de uma densidade de probabilidade e o integral ao longo de todo o intervalo de x é igual a 1.

— Michael R. Chernick

@MichaelChernick Eu não disse que tinha um, mas a maneira de pensar sobre o caso discreto se baseia no fato de que a soma é igual a 1.

— dippynark

@ttnphns não, não tenho, mas vou dar uma olhada agora, obrigado.

— dippynark

Consulte também stats.stackexchange.com/questions/66186/… para interpretação da entropia de Shannon. Algumas das idéias podem ser transferidas.

— Kjetil b halvorsen

Não há interpretação da entropia diferencial que seja tão significativa ou útil quanto a da entropia. O problema com variáveis aleatórias contínuas é que seus valores normalmente têm probabilidade 0 e, portanto, exigiriam um número infinito de bits para codificação.

Se você observar o limite da entropia discreta medindo a probabilidade de intervalos $[n\varepsilon, (n + 1)\varepsilon[$ , você termina com

- \int p (x) \log_{2} p (x) d x - \log_{2} ε

$-\int p(x) \log_2 p(x) \, dx - \log_2 \varepsilon$

e não a entropia diferencial. Essa quantidade é, de certo modo, mais significativa, mas divergirá para o infinito à medida que tomamos intervalos cada vez menores. Faz sentido, uma vez que precisaremos de mais e mais bits para codificar em qual dos muitos intervalos o valor do nosso valor aleatório cai.

Uma quantidade mais útil para procurar distribuições contínuas é a entropia relativa (também divergência de Kullback-Leibler). Para distribuições discretas:

D_{KL} [P | | Q] = \sum_{x} P (x) \log_{2} \frac{P (x)}{Q (x)} .

$D_\text{KL}[P || Q] = \sum_x P(x) \log_2 \frac{P(x)}{Q(x)}.$

Ele mede o número de bits extras usados quando a distribuição verdadeira é $P$ , mas usamos $-\log Q_2(x)$ bits para codificar $x$ . Podemos pegar o limite da entropia relativa e chegar a

D_{KL} [p ∣∣ q] = \int p (x) \log_{2} \frac{p (x)}{q (x)} d x,

$D_\text{KL}[p \mid\mid q] = \int p(x) \log_2 \frac{p(x)}{q(x)} \, dx,$

porque o $\log_2 \varepsilon$ será cancelado. Para distribuições contínuas, isso corresponde ao número de bits extras usados no limite de compartimentos infinitesimalmente pequenos. Para distribuições contínuas e discretas, isso é sempre negativo.

Agora, poderíamos pensar em entropia diferencial como a entropia relativa negativa entre $p(x)$ e uma densidade não normalizada $\lambda(x) = 1$ ,

- \int p (x) \log_{2} p (x) d x = - D_{KL} [p ∣∣ λ] .

$-\int p(x) \log_2 p(x) \, dx = -D_\text{KL}[p \mid\mid \lambda].$

$-\log_2 \int_{n\varepsilon}^{(n + 1)\varepsilon} p(x) \, dx$ $n$ $-\log \varepsilon$ $\lambda$

Veja a palestra de Sergio Verdu para uma ótima introdução à entropia relativa.

— Lucas
fonte