Por que a divergência KL não é negativa?
Da perspectiva da teoria da informação, tenho uma compreensão tão intuitiva:
Digamos que existem dois conjuntos e que são compostos do mesmo conjunto de elementos rotulados por . e são distribuições de probabilidade diferentes sobre o conjunto e respectivamente.
Do ponto de vista da teoria da informação, é a menor quantidade de bits requerida para que a gravação de um elemento para ensemble . De modo que a expectativa
Como essa fórmula coloca um limite inferior nos bits de que precisamos, em média, de modo que, para um conjunto diferente que gera uma distribuição de probabilidade diferente , o limite que ele fornece para cada elemento certamente não irá morder. dada por , o que significa tomar a expectativa,
Eu não coloquei≥aqui, poisp(x)eq(x)são diferentes.
Esta é a minha compreensão intuitiva, existe uma maneira puramente matemática de provar que a divergência de KL não é negativa? O problema pode ser afirmado como:
Dado que e q ( x ) são positivos acima da linha real, e ∫ + ∞ - ∞ p ( x ) d x = 1 , ∫ + ∞ - ∞ q ( x ) d x = 1 . Prove ∫ + ∞ - ∞ p ( x ) ln p ( x ) não é negativo.
Como isso pode ser provado? Ou isso pode ser provado sem condições extras?