Não baseado no meu conhecimento, mas aqui está um artigo (em inglês bastante claro) que eu acho muito relevante para a questão:
Blei, Kucukelbir & McAuliffe 2016. Inferência Variacional: Uma Revisão para Estatísticos . https://arxiv.org/abs/1601.00670
Do resumo:
Um dos principais problemas da estatística moderna é aproximar densidades de probabilidade difíceis de calcular. Esse problema é especialmente importante nas estatísticas bayesianas, que enquadram toda inferência sobre quantidades desconhecidas como um cálculo envolvendo a densidade posterior. Neste artigo, revisamos a inferência variacional (VI), um método do aprendizado de máquina que aproxima as densidades de probabilidade através da otimização. O VI tem sido usado em muitas aplicações e tende a ser mais rápido que os métodos clássicos, como a amostragem por Monte Carlo na cadeia de Markov. A idéia por trás do VI é primeiro postular uma família de densidades e, em seguida, encontrar o membro dessa família que está próximo do alvo. A proximidade é medida pela divergência de Kullback-Leibler. Revisamos as idéias por trás da inferência variacional de campo médio, discutimos o caso especial de VI aplicado a modelos de família exponenciais, apresentamos um exemplo completo com uma mistura bayesiana de gaussianos e derivamos uma variante que usa otimização estocástica para expandir dados massivos. Discutimos pesquisas modernas em VI e destacamos importantes problemas em aberto. VI é poderoso, mas ainda não está bem entendido . Nossa esperança ao escrever este artigo é catalisar a pesquisa estatística sobre essa classe de algoritmos.
Eles também oferecem orientação sobre quando os estatísticos devem usar a amostragem de Monte Carlo na cadeia de Markov e quando a inferência variacional (consulte o parágrafo Comparando a Inferência Variacional e o MCMC no artigo).