Não há interpretação da entropia diferencial que seja tão significativa ou útil quanto a da entropia. O problema com variáveis aleatórias contínuas é que seus valores normalmente têm probabilidade 0 e, portanto, exigiriam um número infinito de bits para codificação.
Se você observar o limite da entropia discreta medindo a probabilidade de intervalos [nε,(n+1)ε[ , você termina com
−∫p(x)log2p(x)dx−log2ε
e não a entropia diferencial. Essa quantidade é, de certo modo, mais significativa, mas divergirá para o infinito à medida que tomamos intervalos cada vez menores. Faz sentido, uma vez que precisaremos de mais e mais bits para codificar em qual dos muitos intervalos o valor do nosso valor aleatório cai.
Uma quantidade mais útil para procurar distribuições contínuas é a entropia relativa (também divergência de Kullback-Leibler). Para distribuições discretas:
DKL[P||Q]=∑xP(x)log2P(x)Q(x).
Ele mede o número de bits extras usados quando a distribuição verdadeira é P , mas usamos −logQ2(x) bits para codificar x . Podemos pegar o limite da entropia relativa e chegar a
DKL[p∣∣q]=∫p(x)log2p(x)q(x)dx,
porque o log2ε será cancelado. Para distribuições contínuas, isso corresponde ao número de bits extras usados no limite de compartimentos infinitesimalmente pequenos. Para distribuições contínuas e discretas, isso é sempre negativo.
Agora, poderíamos pensar em entropia diferencial como a entropia relativa negativa entre p(x) e uma densidade não normalizada λ(x)=1 ,
−∫p(x)log2p(x)dx=−DKL[p∣∣λ].
−log2∫(n+1)εnεp(x)dxn−logελ
Veja a palestra de Sergio Verdu para uma ótima introdução à entropia relativa.