Depois de muita pesquisa cruzada validada, ainda não me sinto mais perto de entender a divergência entre KL fora do campo da teoria da informação. É bastante estranho, como alguém com formação em matemática, achar muito mais fácil entender a explicação da teoria da informação.
Para delinear meu entendimento a partir de um histórico da teoria da informação: se tivermos uma variável aleatória com um número finito de resultados, existe uma codificação ideal que nos permite comunicar o resultado com outra pessoa com, em média, a mensagem mais curta (acho mais fácil imagem em termos de bits). A duração esperada da mensagem que seria necessária para comunicar o resultado é dada por
Eu gosto dessa explicação, porque lida intuitivamente com a assimetria da divergência de KL. Se tivermos dois sistemas diferentes, ou seja, duas moedas carregadas com carga diferente, elas terão codificações ótimas diferentes. De alguma forma, não sinto instintivamente que usar a codificação do segundo sistema para o primeiro é "igualmente ruim" para usar a codificação do primeiro sistema para o segundo. Sem passar pelo processo de pensamento de como me convenci, agora estou bastante feliz que
No entanto, a maioria das definições de divergência de KL, incluindo a Wikipedia, faz a afirmação (mantendo-a em termos discretos para que possa ser comparada com a interpretação da teoria da informação que funciona muito melhor em termos discretos, pois os bits são discretos) que, se tivermos duas probabilidades distintas distribuições, a KL fornece algumas métricas de "quão diferentes elas são". Ainda estou para ver uma única explicação de como esses dois conceitos estão relacionados. Parece que me lembro em seu livro sobre inferência, Dave Mackay aponta como a compactação e inferência de dados são basicamente a mesma coisa, e suspeito que minha pergunta esteja realmente relacionada a isso.
Independentemente de ser ou não, o tipo de pergunta que tenho em mente é sobre problemas de inferência. (Mantendo as coisas discretas), se tivermos duas amostras radioativas, e sabemos que uma delas é um determinado material com radioatividade conhecida (isso é física dúbia, mas vamos fingir que o universo funciona assim) e, assim, sabemos a distribuição "verdadeira" dos cliques radioativos que devemos medir devem ser poissonianos com conhecido , é justo criar uma distribuição empírica para ambas as amostras e comparar suas divergências KL com a distribuição conhecida e dizer que menor é mais provável que seja esse material?
Afastar-me da física duvidosa, se eu souber que duas amostras são extraídas da mesma distribuição, mas eu sei que não são selecionadas aleatoriamente, compararia suas divergências de KL com a conhecida distribuição global, dando-me uma ideia de "quão tendenciosa" as amostras são , em relação a um e outro, afinal?
E, finalmente, se a resposta para as perguntas anteriores for sim, então por quê? É possível entender essas coisas apenas do ponto de vista estatístico, sem fazer nenhuma conexão (possivelmente tênue) à teoria da informação?