Quando o MCMC é útil?


12

Estou com problemas para entender em que situação a abordagem do MCMC é realmente útil. Estou passando por um exemplo de brinquedo do livro de Kruschke "Fazendo análise de dados bayesiana: um tutorial com R e BUGS".

O que eu entendi até agora é que precisamos de uma distribuição de destino proporcional a para obter uma amostra de . No entanto, parece-me que, uma vez que temos , precisamos apenas normalizar a distribuição para obter a posterior, e o fator de normalização pode ser facilmente encontrado numericamente. Então, quais são os casos em que isso não é possível?p(D|θ)p(θ)P(θ|D)p(D|θ)p(θ)


2
Suponha que não seja escalar, mas sim um vetor com 10000 dimensões. θθθ
Jan Galkowski

1
Minha resposta foi um pouco concisa. Para obter a constante, é necessário calcular . Mesmo no caso escalar, suponha que seja realmente instável, portanto é difícil fazer a integração, mesmo numericamente. Então você pode querer usar o MCMC. p ( D | θ )p(D|θ)p(θ)p(D|θ)
Jan Galkowski

2
Uma palavra de cautela de Alan Sokal: "Monte Carlo é um método extremamente ruim; deve ser usado apenas quando todos os métodos alternativos são piores". Então ele inicia uma longa discussão sobre os métodos de MC. stat.unc.edu/faculty/cji/Sokal.pdf
Yair Daon

1
@Yair: Parece-me que Sokal está canalizando Churchill.
cardeal

1
Quando nada mais vai funcionar ...
b Kjetil Halvorsen

Respostas:


10

A integração de Monte Carlo é uma forma de integração numérica que pode ser muito mais eficiente do que, por exemplo, integração numérica, aproximando o integrando de polinômios. Isto é especialmente verdade em altas dimensões, onde técnicas simples de integração numérica requerem um grande número de avaliações de funções. Para calcular a constante de normalizaçãop(D) , poderíamos usar amostragem importante ,

p(D)=q(θ)q(θ)p(θ)p(Dθ)dθ1Nnwnp(θn)p(Dθn),

onde e são amostrados de . Observe que precisamos apenas avaliar a distribuição conjunta nos pontos amostrados. Para o certo , esse estimador pode ser muito eficiente no sentido de exigir muito poucas amostras. Na prática, escolher um apropriadoθ n q q qwn=1/q(θn)θnqqq pode ser difícil, mas é aqui que o MCMC pode ajudar! A amostragem de importância recozida (Neal, 1998) combina o MCMC com a amostragem de importância.

Outra razão pela qual o MCMC é útil é o seguinte: geralmente não estamos tão interessados ​​na densidade posterior de , mas nas estatísticas e expectativas resumidasθ , por exemplo,

p(θD)f(θ)dθ.

Saber p(D) geralmente não significa que podemos resolver essa integral, mas as amostras são uma maneira muito conveniente de estimar.

Finalmente, poder avaliar é um requisito para alguns métodos de MCMC, mas não para todos eles (por exemplo, Murray et al., 2006 ).p(Dθ)p(θ)


Desculpe, mas isso ainda não está claro para mim. Minha pergunta é: se multiplicarmos , obteremos um pdf não normalizado. Ao executar o MCMC, obtemos uma amostra para a qual podemos estimar o pdf não normalizado. Se quisermos, poderíamos normalizar os dois. Então, supondo que eu não esteja interessado em nenhuma estatística resumida, mas apenas nos posteriores, por que usamos o MCMC em primeiro lugar? Como você disse, alguns métodos do MCMC não requerem o cálculo de , portanto, não estou me referindo a eles. Até onde eu sei, a maioria deles exige o cálculo disso. Qual é a utilidade desses métodos? p ( D | θ ) p ( θ )p(D|θ)p(θ)p(D|θ)p(θ)
Vaaal

2
Ao executar o MCMC, você obtém uma amostra do pdf normalizado, portanto, evite calcular a constante de normalização. E isso é de graça.
Xi'an

2
@ Vaaal: Sua suposição de que "o fator de normalização pode ser facilmente encontrado numericamente" vale apenas para distribuições univariadas simples. Para alta dimensão , normalizar é geralmente extremamente difícil. Nesse caso, o MCMC ainda pode ser usado para estimar a constante de normalização (por exemplo, através de amostragem de importância recozida). p ( D θ ) p ( θ )θp(Dθ)p(θ)
10243 Lucas

6

Quando você recebe um e uma probabilidade que não são computáveis ​​na forma fechada ou que a distribuição posterior não é de um tipo padrão, não é possível simular diretamente desse alvo em direção a uma aproximação de Monte Carlo da distribuição posterior. Um exemplo típico é feito de modelos hierárquicos com anteriores não conjugados, como os encontrados no livro BUGS .f ( x | θ ) p ( θ | x ) p ( θ ) f ( x | θ )p(θ)f(x|θ)

p(θ|x)p(θ)f(x|θ)

Os métodos de simulação indireta, como as técnicas de aceitação-rejeição, proporção de uniforme ou amostragem de importância, costumam ter dificuldades numéricas e de precisão quando a dimensão do parâmetro aumenta além de algumas unidades.θ

Pelo contrário, os métodos de Monte Carlo da cadeia de Markov são mais adaptáveis ​​a grandes dimensões, pois podem explorar a distribuição posterior localmente, ou seja, em uma vizinhança do valor atual e em um número menor de componentes, ou seja, em subespaços. Por exemplo, o amostrador Gibbs valida a noção de que simular a partir de um alvo unidimensional por vez, ou seja, as distribuições condicionais completas associadas a , é suficiente para obter a simulação do verdadeiro posterior a longo prazo.p(θ|x)

Os métodos Monte Carlo da cadeia de Markov também têm um certo grau de universalidade, pois algoritmos como o algoritmo Metropolis-Hastings estão formalmente disponíveis para qualquer distribuição posterior que pode ser calculada até uma constante.p(θ|x)

Nos casos em que não pode ser facilmente calculado, existem alternativas, completando essa distribuição em uma distribuição gerenciável em um espaço maior, como em ou através de métodos não-markovianos como ABC .p(θ)f(x|θ)

p(θ)f(x|θ)g(z|θ,x)p(θ)f(x|θ)dz

Os métodos MCMC deram um alcance muito mais amplo aos métodos bayesianos, como ilustrado pelo aumento que se seguiu à popularização do método por Alan Gelfand e Adrian Smith em 1990.


O link para O LIVRO DE BUGS não está mais funcionando.
HelloWorld
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.