Para uma resposta longa, consulte Blei, Kucukelbir e McAuliffe aqui . Esta resposta curta é fortemente derivada disso.
- MCMC é assintoticamente exato; VI não é . No limite, o MCMC aproximará exatamente a distribuição de destino. VI vem sem garantia.
- O MCMC é computacionalmente caro . Em geral, o VI é mais rápido.
Ou seja, quando temos tempo computacional para eliminar e valorizar a precisão de nossas estimativas, o MCMC vence. Se podemos tolerar sacrificar isso por conveniência - ou estamos trabalhando com dados tão grandes que precisamos fazer a troca - VI é uma escolha natural.
Ou, como descrito de forma mais eloquente e completa pelos autores mencionados acima:
Assim, a inferência variacional é adequada para grandes conjuntos de dados e cenários em que queremos explorar rapidamente muitos modelos; O MCMC é adequado para conjuntos de dados e cenários menores, onde pagamos com satisfação um custo computacional mais alto para amostras mais precisas. Por exemplo, podemos usar o MCMC em um cenário em que passamos 20 anos coletando um conjunto de dados pequeno, porém caro, em que confiamos que nosso modelo é apropriado e em que exigimos inferências precisas. Podemos usar inferência variacional ao ajustar um modelo probabilístico de texto a um bilhão de documentos de texto e onde as inferências serão usadas para servir os resultados da pesquisa a uma grande população de usuários. Nesse cenário, podemos usar computação distribuída e otimização estocástica para dimensionar e acelerar a inferência, e podemos explorar facilmente muitos modelos diferentes de dados.