Por que o MCMC é necessário ao estimar um parâmetro usando MAP

Dada a fórmula para a estimativa MAP de um parâmetro Por que é necessária uma abordagem MCMC (ou similar), eu não poderia simplesmente pegar a derivada, defini-la como zero e depois resolver o parâmetro?

bayesian estimation mcmc

— Dänu
fonte

Ótima pergunta!

Respostas:

Se você sabe de qual família seu posterior é e se a derivada dessa distribuição é analiticamente viável, isso está correto.

No entanto, ao usar o MCMC, é provável que você não esteja nesse tipo de situação. O MCMC é feito para situações em que você não tem uma noção analítica clara de como é a aparência posterior.

— Christoph Hanck
fonte

Eu acho que isso é um pouco enganador: o MCMC normalmente não é usado para encontrar o estimador MAP (fora de casos especiais como um algoritmo MCEM).

— Cliff AB

Eu não discordo de você em princípio. Porém, o MCMC pode ser e é usado para simular a distribuição posterior . E depois de fazer isso, você certamente encontrará o modo dessa distribuição, também conhecido como MAP. Creio que é o que o OP tinha em mente, por isso não sei ao certo por que minha resposta seria enganosa.

— Christoph Hanck 27/08/2015

Sim, no entanto, o MCMC é o método de escolha ao lidar com o MAP se não houver uma maneira analítica de otimizar o parâmetro?

— Dänu 27/08/2015

Nunca ouvi falar em usar o MCMC simples para encontrar o modo da distribuição posterior (tecnicamente, isso poderia ser feito, mas isso é extremamente ineficiente). Como normalmente podemos avaliar uma função proporcional à distribuição posterior, maximizar isso será equivalente a maximizar a distribuição posterior. Os otimizadores prontos para o uso funcionarão tão bem quanto qualquer problema de probabilidade frequente (ou seja, às vezes você precisará especializá-los).

— Cliff AB

@ Dänu Você provavelmente não quer usar o MCMC (para ser pedante, uma cadeia de Markov) para encontrar o máximo. Um algoritmo de otimização deve funcionar melhor.

— precisa saber é

A maioria dos posteriores se mostra difícil de otimizar analiticamente (ou seja, tomando um gradiente e definindo-o como zero), e você precisará recorrer a algum algoritmo de otimização numérica para executar o MAP.

Como um aparte: o MCMC não está relacionado ao MAP.

MAP - para máximo a posteriori - refere-se a encontrar um máximo local de algo proporcional a uma densidade posterior e usar os valores correspondentes dos parâmetros como estimativas. É definido como

{\hat{θ}}_{M A P} = {argmax}_{θ} p (θ | D)

$\hat{\theta}_{MAP} = \text{argmax}_{\theta} \, p(\theta \, | \, D)$

O MCMC é normalmente usado para aproximar expectativas sobre algo proporcional a uma densidade de probabilidade. No caso de um posterior, isso é

{\hat{θ}}_{M C M C} = n^{- 1} \sum_{Eu = 1}^{n} θ_{Eu}^{0 0} \approx \int_{Θ} θ p (θ | D) d θ

$\hat{\theta}_{MCMC} = n^{-1} \sum_{i=1}^{n} \theta^{0}_{i} \approx \int_{\Theta}\theta \, p(\theta \, | \, D)d\theta$

onde é uma coleção de posições de espaço de parâmetros visitadas por uma cadeia de Markov adequada. Em geral, em qualquer sentido significativo. $\{\theta^{0}_{i}\}^{n}_{i=1}$ $\hat{\theta}_{MAP} \neq \hat{\theta}_{MCMC}$

O ponto crucial é que o MAP envolve otimização , enquanto o MCMC é baseado em amostragem .

— jtobin
fonte

Você afirma que é difícil otimizar analiticamente os posteriores, como é o caso no MAP. Portanto, o MAP só é possível se o posterior puder ser otimizado analiticamente e se esse não for o caso, é necessário recorrer (por exemplo) a uma abordagem do MCMC?

— Dänu 27/08/2015

Não, em vez de vir com a solução analítica, pode-se usar um algoritmo iterativo para encontrar a solução (ou seja, se o log posterior for côncavo, você pode usar o Método de Newton, por exemplo).

— Cliff AB

MAP refere-se a encontrar valores de parâmetros que (localmente) maximizam um posterior. Não importa como se recebe os valores de parâmetro: resolvendo para maxima analiticamente, usando uma rotina numérica, a diferenciação automática, etc.

— jtobin