Para conseguir isso e simplificar as coisas, sempre penso primeiro em apenas um parâmetro com distribuição a priori uniforme (de longo alcance), de modo que, neste caso, a estimativa MAP do parâmetro seja a mesma do MLE . No entanto, suponha que sua função de probabilidade seja complicada o suficiente para ter vários máximos locais.
O que o MCMC faz neste exemplo em 1-D é explorar a curva posterior até encontrar valores de probabilidade máxima. Se a variação for muito curta, você certamente ficará preso aos máximos locais, porque sempre terá valores de amostragem próximos: o algoritmo MCMC "pensará" que está preso na distribuição de destino. No entanto, se a variação for muito grande, quando você ficar preso em um máximo local, você rejeitará mais ou menos valores até encontrar outras regiões com probabilidade máxima. Se você propor o valor no MAP (ou uma região similar de probabilidade máxima local maior que as outras), com uma grande variação, você acabará rejeitando quase todos os outros valores: a diferença entre essa região e as outras será muito grande.
Obviamente, todos os itens acima afetarão a taxa de convergência e não a convergência "per se" de suas cadeias. Lembre-se de que, independentemente da variação, desde que a probabilidade de selecionar o valor dessa região máxima global seja positiva, sua cadeia convergirá.
Para contornar esse problema, no entanto, o que se pode fazer é propor diferentes variações em um período de queima para cada parâmetro e visar a determinadas taxas de aceitação que possam satisfazer suas necessidades (por exemplo , , consulte Gelman, Roberts & Gilks, 1995 e Gelman, Gilks e Roberts, 19970,44 para aprender mais sobre a questão de selecionar uma taxa de aceitação "boa" que, é claro, depende da forma de sua distribuição posterior). É claro que, neste caso, a cadeia não é markoviana, portanto você NÃO precisa usá-las como inferência: basta usá-las para ajustar a variação.