Estou confuso sobre como calcular a perplexidade de uma amostra de validação ao fazer a Alocação de Dirichlet Latente (LDA). Os artigos sobre o assunto brotam, me fazendo pensar que estou perdendo algo óbvio ...
A perplexidade é vista como uma boa medida de desempenho para a LDA. A idéia é que você mantenha uma amostra de holdout, treine seu LDA no restante dos dados e calcule a perplexidade do holdout.
A perplexidade pode ser dada pela fórmula:
(Extraído da recuperação de imagens em bancos de dados de imagens em larga escala, Horster et al .)
Aqui é o número de documentos (na amostra de teste, presumivelmente), representa as palavras no documento , e o número de palavras no documento .w d d n d d
Não está claro para mim como calcular sensivelmente , já que não temos misturas de tópicos para os documentos retidos. Idealmente, integraríamos o Dirichlet antes de todas as possíveis misturas de tópicos e usaríamos os multinomiais de tópicos que aprendemos. Calcular esta integral não parece uma tarefa fácil, no entanto.
Como alternativa, poderíamos tentar aprender uma combinação ideal de tópicos para cada documento apresentado (de acordo com nossos tópicos aprendidos) e usá-lo para calcular a perplexidade. Isso seria possível, no entanto, não é tão trivial quanto trabalhos como Horter et al e Blei et al parecem sugerir, e não está imediatamente claro para mim que o resultado será equivalente ao caso ideal acima.