Devido à limitação da densidade de pontos discretos , a interpretação de
não pode ser generalizada para
S=−∑xp(x)lnp(x)
S=−∫dx(p(x)lnp(x))
Como a generalização direta leva a
Claramente, explode.
S=−∫dxp(x)ln(p(x)dx)=−∫dxp(x)ln(p(x))−∫dxp(x)ln(dx)
lndx
Intuitivamente, desde , o raciocínio de usar menos bits para codificar algo com maior probabilidade de acontecer não se mantém . Portanto, precisamos encontrar outra maneira de interpretar , e a escolha é a divergência de .p(x)dx=0S=−∫dxp(x)ln(p(x)dx)KL
Digamos que temos uma distribuição uniforme no mesmo espaço de estado, então temos
Como é apenas uma constante, mantemos efetivamente a forma de e ao mesmo tempo, construa uma quantidade bem definida para a distribuição contínua .q(x)
KL(p(x)∥q(x))=∫dxp(x)ln(p(x)dxq(x)dx)
q(x)S=−∫dx(p(x)ln(p(x)dx))p(x)
Portanto, a partir da divergência , a entropia de uma distribuição contínua pode ser interpretada como:KLp(x)
Se usarmos uma distribuição uniforme para codificar , quantos bits serão desnecessários em média.p(x)