Ao usar os algoritmos de Monte Carlo da cadeia de Markov (MCMC) na análise bayesiana, geralmente o objetivo é amostrar a partir da distribuição posterior. Recorremos ao MCMC quando outras técnicas de amostragem independentes não são possíveis (como a amostragem por rejeição). O problema, porém, com o MCMC é que as amostras resultantes estão correlacionadas. Isso ocorre porque cada amostra subsequente é desenhada usando a amostra atual.
Existem dois métodos principais de amostragem MCMC: amostragem de Gibbs e algoritmo Metropolis-Hastings (MH).
- A autocorrelação nas amostras é afetada por muitas coisas. Por exemplo, ao usar algoritmos MH, você pode reduzir ou aumentar suas correlações automáticas, ajustando o tamanho da etapa da distribuição da proposta. Na amostragem de Gibbs, no entanto, não existe tal ajuste possível. A autocorrelação também é afetada pelos valores iniciais da cadeia de Markov. Geralmente, existe um valor inicial ótimo (desconhecido) que leva à comparativamente menos autocorrelação. A multi-modalidade da distribuição de destino também pode afetar bastante a autocorrelação das amostras. Portanto, existem atributos da distribuição de destino que podem definitivamente ditar a autocorrelação. Mas, na maioria das vezes, a autocorrelação é ditada pelo amostrador usado. Em termos gerais, se um amostrador MCMC pular mais o espaço de estados, provavelmente terá uma autocorrelação menor.
- Não estou familiarizado com o JAGS.
- Se você já optou pelo amostrador e não tem a opção de brincar com outros amostradores, a melhor opção seria fazer uma análise preliminar para encontrar bons valores iniciais e tamanhos de etapas. Geralmente, o desbaste não é sugerido, pois argumenta-se que jogar fora as amostras é menos eficiente do que usar amostras correlacionadas. Uma solução universal é executar o amostrador por um longo período, para que você tenha um Tamanho Efetivo da Amostra (ESS). Veja o
R
pacote mcmcse
aqui . Se você observar a vinheta na página 8, o autor propõe um cálculo das amostras efetivas mínimas necessárias para o processo de estimativa. Você pode encontrar esse número para o seu problema e deixar a cadeia de Markov funcionar até que você tenha muitas amostras efetivas .