1
Por que o posterior bayesiano se concentra em torno do minimizador da divergência de KL?
Considere o Bayesian posterior . Assintoticamente, seu máximo ocorre na estimativa MLE , que apenas maximiza a probabilidade .θ∣Xθ∣X\theta\mid Xθ^θ^\hat \thetaargminθfθ(X)argminθfθ(X)\operatorname{argmin}_\theta\, f_\theta(X) Todos esses conceitos - priores Bayesianos, maximizando a probabilidade - parecem superprincípios e nada arbitrários. Não há um log à vista. No entanto MLE minimiza a divergência KL …