Por que precisamos de plotagem de rastreamento para resultados do MCMC

Estou lendo artigos de pesquisa usando os métodos MCMC e vejo a maioria deles fornecendo traços. Por que precisamos de traços na cadeia Markov Monte Carlo? O que indica um gráfico de rastreamento de parâmetros?

data-visualization mcmc

— Benzamin
fonte

Você cria os gráficos de rastreio de parâmetros para garantir que sua distribuição a priori seja bem calibrada, o que é indicado por seus parâmetros terem alterações suficientes de estado à medida que o algoritmo MCMC é executado.

Um exemplo extremo é que você define sua variação de distribuição a priori em 0. Então a estimativa do parâmetro posterior nunca será alterada. Seu algoritmo diria que você tem a melhor estimativa de parâmetro, mas não verificou um número suficiente de parâmetros para determinar se esse é realmente o melhor ajuste. Se você definir uma variação de distribuição a priori muito alta, obterá um problema semelhante. Isso ocorre porque é menos provável que o novo parâmetro esteja relacionado aos seus dados - portanto, a probabilidade de log calculada com seu novo parâmetro provavelmente não será melhor que a probabilidade de log usando o parâmetro antigo. (Um exemplo é se o parâmetro "true" for 0,5 e sua estimativa inicial for 2, mas você estiver selecionando uma distribuição normal com média de 2 e variação de 10.000, é improvável que obtenha um parâmetro mais próximo de 1 .

Você precisa selecionar uma variação a priori que permita que seus estados de parâmetro sejam alterados o suficiente para não ficarem presos aos mínimos e máximos locais na distribuição de probabilidade de log, mas ainda assim suficientemente bem para obter estimativas razoáveis de parâmetros. A maior parte da literatura sugere que você obtenha seus parâmetros para mudar de estado 40-60% das vezes.

Uma outra razão para as plotagens de rastreio é a queima. Geralmente, a queima no período é óbvia na plotagem (por exemplo, se o parâmetro true for 1,5 e sua estimativa inicial for 4, você deverá ver as estimativas de parâmetros se movendo rapidamente de 4 para 1,5 e depois "saltando" em torno de 1,5). Normalmente, você apenas exclui as primeiras n iterações em que n é grande o suficiente para remover a queimadura (por exemplo, 1000), mas se os cálculos forem demorados ou se suas estimativas de parâmetros estiverem demorando muito mais para convergir do que n permite que você queira omitir mais ou menos observações para explicar a queima. Você pode verificar seus gráficos para ver onde a queima no período termina para garantir que a queima não esteja afetando seus resultados.

Observe que eu tenho falado no contexto de estimativas de pontos de parâmetro. Se você estiver estimando a variação dos parâmetros, garantir que você tenha alterações de estado apropriadas é ainda mais importante.

— Eric
fonte

+1 Mas o outro lado disso é que não confiamos totalmente nos diagnósticos formais de convergência e queremos observar algo antes de afirmarmos que ele é convergido. Se isto é inteiramente racional é outra questão ...

— conjugateprior

Desculpe desenterrar este post antigo. Mas o valor anterior (gerado a partir da distribuição anterior) não deveria ser irrelevante enquanto houver um número suficiente de iterações?

— Mscnvrsy 22/09/16

@mscnvrsy: você pode colocar um prévio não informativo como o anterior ou uniforme de Jeffry antes, se desejar fornecer menos informações ao seu prior.

— Benzamin

Não concordo totalmente com a noção de que as plotagens de rastreamento do MCMC estejam relacionadas à calibragem de uma distribuição anterior. Um algoritmo MCMC visa uma determinada distribuição posterior, irrelevante a escolha do anterior, e em condições adequadas cria uma cadeia de Markov que converge para essa distribuição estacionária. Observar traços é útil apenas para avaliar a convergência ou a falta dela da cadeia de Markov.

— Xian