Esta é uma pergunta recorrente (veja este post , este post e este post ), mas eu tenho uma opinião diferente.
Suponha que eu tenha várias amostras de um amostrador genérico do MCMC. Para cada amostra , eu sei o valor da probabilidade do log e do log anterior . Se ajudar, também sei o valor da probabilidade do log por ponto de dados, (essas informações ajudam em certos métodos, como WAIC e PSIS-LOO).log f ( x | θ ) log f ( θ ) log f ( x i | θ )
Quero obter uma estimativa (bruta) da probabilidade marginal, apenas com as amostras que tenho e, possivelmente, algumas outras avaliações de função (mas sem executar novamente um MCMC ad hoc ).
Primeiro de tudo, vamos limpar a mesa. Todos sabemos que o estimador harmônico é o pior estimador de todos os tempos . Vamos continuar. Se você estiver fazendo uma amostragem de Gibbs com anteriores e posteriores na forma fechada, poderá usar o método de Chib ; mas não sei como generalizar fora desses casos. Também existem métodos que exigem que você modifique o procedimento de amostragem (como via posterior temperado ), mas não estou interessado nisso aqui.
A abordagem em que estou pensando consiste em aproximar a distribuição subjacente com uma forma paramétrica (ou não paramétrica) e depois descobrir a constante de normalização como um problema de otimização 1-D (ou seja, o que minimiza algum erro entre e , avaliadas sobre as amostras). No caso mais simples, suponha que o posterior seja aproximadamente multivariado normal, eu posso ajustar como um normal multivariado e obter algo semelhante a uma aproximação de Laplace (eu poderia querer usar algumas avaliações de funções adicionais para refinar a posição de o modo). No entanto, eu poderia usar comoZ Z Z g ( θ ) f ( x | θ ) f ( θ ) g ( θ ) g ( θ )uma família mais flexível, como uma mistura variacional de distribuições multivariadas de .
Compreendo que esse método funcione apenas se for uma aproximação razoável de , mas qualquer motivo ou conto preventivo sobre por que seria muito imprudente faça? Alguma leitura que você recomendaria?
A abordagem totalmente não paramétrica usa alguma família não paramétrica, como um processo Gaussiano (GP), para aproximar (ou alguma outra transformação não linear do mesmo, como como raiz quadrada) e quadratura bayesiana para integrar implicitamente sobre o alvo subjacente (veja aqui e aqui ). Essa parece ser uma abordagem alternativa interessante, mas de espírito análogo (observe também que os GPs seriam difíceis de manejar no meu caso).