Para meu entendimento (muito modesto) da inferência variacional, tenta-se aproximar uma distribuição desconhecida encontrando uma distribuição que otimiza o seguinte:
Sempre que investo tempo na compreensão da inferência variacional, continuo seguindo essa fórmula e não consigo deixar de sentir que estou perdendo o objetivo. Parece que eu preciso saber para calcular . Mas o ponto principal era que eu não conhecia essa distribuição .
É esse ponto exato que me incomoda toda vez que tento ler algo variacional. o que estou perdendo?
EDIT :
Adicionarei alguns comentários extras aqui como resultado da resposta de @wij. Tentarei ser mais preciso.
Nos casos em que estou interessado, realmente parece perfeitamente razoável considerar que o seguinte se aplica;
Neste caso, eu poderia saber o que deve proporcionalmente parecido, porque eu vou ter feito uma escolha modelo para e . Eu estaria correto ao dizer que preciso escolher uma distribuição familiar [digamos gaussiana], de modo que agora eu possa estimar . Parece que, neste caso, estou tentando ajustar um gaussiano que esteja próximo do não normalizado . Isso está correto?
Nesse caso, parece que estou assumindo que minha posterior é uma distribuição normal e apenas tento encontrar valores prováveis para essa distribuição com relação à divergência de .