Estou tentando entender o trabalho interno do Hamiltoniano Monte Carlo (HMC), mas não consigo entender completamente a parte quando substituímos a integração determinística do tempo por uma proposta de Metropolis-Hasting. Estou lendo o impressionante artigo introdutório Uma Introdução Conceitual ao Hamiltoniano Monte Carlo de Michael Betancourt, por isso seguirei a mesma notação usada aqui.
fundo
O objetivo geral do Monte Carlo da Cadeia de Markov (MCMC) é aproximar a distribuição de uma variável de destino .q
A idéia do HMC é introduzir uma variável auxiliar de "momento" , em conjunto com a variável original que é modelada como "posição". O par posição-momento forma um espaço de fase estendido e pode ser descrito pela dinâmica hamiltoniana. A distribuição conjunta pode ser escrita em termos de decomposição microcanônica:q
,
onde representa os parâmetros em um dado nível de energia , também conhecido como conjunto típico . Veja as figuras 21 e 22 do documento para ilustração. ( q , p ) E
O procedimento HMC original consiste nas duas etapas alternadas a seguir:
Uma etapa estocástica que realiza a transição aleatória entre os níveis de energia e
Uma etapa determinística que executa a integração do tempo (geralmente implementada via integração numérica com salto) ao longo de um determinado nível de energia.
No artigo, argumenta-se que o leapfrog (ou integrador simplético) apresenta pequenos erros que introduzirão viés numérico. Portanto, em vez de tratá-lo como uma etapa determinística, devemos transformá-la em uma proposta de Metropolis-Hasting (MH) para tornar essa etapa estocástica, e o procedimento resultante produzirá amostras exatas da distribuição.
A proposta de MH executará etapas de operações de avanço rápido e depois mudará o momento. A proposta será aceita com a seguinte probabilidade de aceitação:
Questões
Minhas perguntas são:
1) Por que essa modificação de transformar a integração de tempo determinística na proposta de MH cancela o viés numérico para que as amostras geradas sigam exatamente a distribuição de destino?
2) Do ponto de vista da física, a energia é conservada em um determinado nível de energia. É por isso que somos capazes de usar as equações de Hamilton:
.
Nesse sentido, a energia deve ser constante em todos os lugares do conjunto típico, portanto, deve ser igual a . Por que existe uma diferença de energia que nos permite construir a probabilidade de aceitação?