O livro Elementos da teoria da informação nos dá um exemplo:
Por exemplo, se soubéssemos a verdadeira distribuição p da variável aleatória, poderíamos construir um código com o comprimento médio da descrição H (p). Se, em vez disso, usamos o código para uma distribuição q, precisaríamos de H (p) + D (p || q) bits, em média, para descrever a variável aleatória.
Parafraseando a afirmação acima, podemos dizer que, se alterarmos a distribuição de informações (de q para p), precisaremos de D (p || q) bits extras, em média, para codificar a nova distribuição.
Uma ilustração
Deixe-me ilustrar isso usando um aplicativo no processamento de linguagem natural.
Considere que um grande grupo de pessoas, rotulado B, são mediadores e cada um deles é atribuída uma tarefa de escolher um nome de turkey
, animal
e book
e transmiti-lo para C. Não é um nome de cara Um que pode enviar a cada um deles um e-mail para dar eles algumas dicas. Se ninguém no grupo recebeu o e-mail, eles podem levantar as sobrancelhas e hesitar um pouco, considerando o que C precisa. E a probabilidade de cada opção escolhida é 1/3. Distribuição uniforme uniforme (se não, pode estar relacionada à sua própria preferência e simplesmente ignoramos esses casos).
Mas se eles receberem um verbo, como baste
3/4 deles podem escolher turkey
e 3/16 animal
e 1/16 book
. Então, quanta informação em bits cada mediador obteve em média depois de conhecer o verbo? Isto é:
D(p(nouns|baste)||p(nouns))=∑x∈{turkey,animal,book}p(x|baste)log2p(x|baste)p(x)=34∗log23413+316∗log231613+116∗log211613=0.5709 bits
Mas e se o verbo dado for read
? Podemos imaginar que todos eles escolheriam book
sem hesitar, então o ganho médio de informações para cada mediador do verbo read
é:
D(p(nouns|read)||p(nouns))=∑x∈{book}p(x|read)log2p(x|read)p(x)=1∗log2113=1.5849 bits
Podemos ver que o verbo read
pode fornecer mais informações aos mediadores. E é isso que a entropia relativa pode medir.
Vamos continuar nossa história. Se C suspeitar que o substantivo possa estar errado, porque A lhe disse que ele pode ter cometido um erro enviando o verbo errado aos mediadores. Então, quanta informação em bits uma notícia tão ruim pode dar a C?
1) se o verbo dado por A for baste
:
D(p(nouns)||p(nouns|baste))=∑x∈{turkey,animal,book}p(x)log2p(x)p(x|baste)=13∗log21334+13∗log213316+13∗log213116=0.69172 bits
2) mas e se o verbo fosse read
?
D(p(nouns)||p(nouns|baste))=∑x∈{book,∗,∗}p(x)log2p(x)p(x|baste)=13∗log2131+13∗log2130+13∗log2130=∞ bits
Como C nunca sabe o que seriam os outros dois substantivos e qualquer palavra no vocabulário seria possível.
Podemos ver que a divergência KL é assimétrica.
Espero estar certo e, se não, por favor, comente e ajude a me corrigir. Desde já, obrigado.