Considere o Bayesian posterior . Assintoticamente, seu máximo ocorre na estimativa MLE , que apenas maximiza a probabilidade .
Todos esses conceitos - priores Bayesianos, maximizando a probabilidade - parecem superprincípios e nada arbitrários. Não há um log à vista.
No entanto MLE minimiza a divergência KL entre a verdadeira distribuição e , ou seja, ela minimiza
Woah - de onde esses logs vieram? Por que a divergência KL em particular?
Por que, por exemplo, minimizar uma divergência diferente não corresponde aos conceitos de super princípios e motivados dos posteriores bayesianos e maximizar a probabilidade acima?
Parece haver algo de especial na divergência e / ou registros de KL neste contexto. Claro, podemos jogar as mãos para o alto e dizer que é assim que a matemática é. Mas suspeito que possa haver alguma intuição ou conexões mais profundas a serem descobertas.