A divergência de Kullback-Leibler não é uma métrica propriamente dita, uma vez que não é simétrica e também não satisfaz a desigualdade do triângulo. Portanto, os "papéis" desempenhados pelas duas distribuições são diferentes, e é importante distribuí-los de acordo com o fenômeno do mundo real em estudo.
Quando escrevemos (o OP calculou a expressão usando logaritmos de base 2)
K ( P| | Q)= ∑Euregistro2( pEu/ qEu) pEu
consideramos a distribuição a "distribuição alvo" (geralmente considerada a distribuição verdadeira), que aproximamos usando a distribuiçãoQPQ
Agora,
∑Euregistro2( pEu/ qEu) pEu= ∑Euregistro2(pEu)pEu- ∑Euregistro2( qEu)pEu= - H( P) - EP( em( Q ) )
onde é a entropia de Shannon da distribuição e é chamada de "entropia cruzada de e ", também não simétrica.P - E P ( ln ( Q ) ) P QH( P)P- EP( em( Q ) )PQ
Escrevendo
K ( P| | Q)=H( P, Q ) - H( P)
(aqui também, a ordem em que escrevemos as distribuições na expressão das questões da entropia cruzada, uma vez que também não é simétrica), permite ver que a KL-Divergence reflete um aumento na entropia sobre a inevitável entropia da distribuição .P
Portanto, não , é melhor que a divergência de KL não seja interpretada como uma "medida de distância" entre distribuições, mas como uma medida de aumento de entropia devido ao uso de uma aproximação à distribuição verdadeira e não à verdadeira distribuição em si .
Então, estamos na terra da teoria da informação. Para ouvir dos mestres (Cover & Thomas) "
... se soubéssemos a verdadeira distribuição da variável aleatória, poderíamos construir um código com o comprimento médio da descrição . Se, em vez disso, usamos o código para uma distribuição , precisaríamos de bits na média para descrever a variável aleatória.H ( P ) Q H ( P ) + K ( P | | Q )PH( P)QH( P) + K ( P| | Q)
As mesmas pessoas sábias dizem
... não é uma distância verdadeira entre distribuições, pois não é simétrica e não satisfaz a desigualdade do triângulo. No entanto, muitas vezes é útil pensar na entropia relativa como uma "distância" entre distribuições.
Mas essa última abordagem é útil principalmente quando se tenta minimizar a divergência de KL para otimizar algum procedimento de estimativa. Para a interpretação do seu valor numérico per se , não é útil e deve-se preferir a abordagem "aumento da entropia".
Para as distribuições específicas da pergunta (sempre usando logaritmos de base 2)
K ( P| |Q ) = 0,49282 ,H( P) = 1,9486
Em outras palavras, você precisa de 25% mais bits para descrever a situação, se você estiver indo para usar enquanto a verdadeira distribuição é . Isso significa linhas de código mais longas, mais tempo para escrevê-las, mais memória, mais tempo para lê-las, maior probabilidade de erros etc. ... não é por acaso que Cover & Thomas dizem que KL-Divergence (ou "relativa entropia") " mede a ineficiência causada pela aproximação ".QP