Recentemente, um enorme corpo de literatura discutindo como extrair informações de textos escritos aumentou. Portanto, descreverei apenas quatro marcos / modelos populares e suas vantagens / desvantagens e, assim, destacarei (algumas) as principais diferenças (ou pelo menos o que eu acho que são as principais / mais importantes).
Você menciona a abordagem "mais fácil", que seria agrupar os documentos comparando-os com uma consulta predefinida de termos (como no PMI). Entretanto, esses métodos de correspondência lexical podem ser imprecisos devido à polissemia (múltiplos significados) e sinonímia (várias palavras que têm significados semelhantes) de termos únicos.
Como solução, a indexação semântica latente ( LSI ) tenta superar isso mapeando termos e documentos em um espaço semântico latente por meio de uma decomposição de valor singular. Os resultados do LSI são indicadores de significado mais robustos do que os termos individuais seriam. No entanto, uma desvantagem do LSI é a falta de bases probabilísticas sólidas.
Isso foi parcialmente resolvido pela invenção do LSI probabilístico ( pLSI ). Nos modelos pLSI, cada palavra em um documento é extraída de um modelo de mistura especificado por meio de variáveis aleatórias multinomiais (o que também permite co-ocorrências de ordem superior, como @sviatoslav hong mencionado). Este foi um passo importante na modelagem probabilística de texto, mas foi incompleto no sentido de que não oferece estrutura probabilística no nível dos documentos.
A Alocação Dirichlet Latente ( LDA ) alivia isso e foi o primeiro modelo totalmente probabilístico para agrupamento de texto. Blei et al. (2003) mostram que o pLSI é um modelo LDA máximo estimado a posteriori sob um Dirichlet uniforme anterior.
Observe que os modelos mencionados acima (LSI, pLSI, LDA) têm em comum que eles são baseados no pressuposto de "saco de palavras" - ou seja, que em um documento as palavras são trocáveis, ou seja, a ordem das palavras em um documento pode ser negligenciado. Essa suposição de permutabilidade oferece uma justificativa adicional para a LDA em relação a outras abordagens: supondo que não apenas as palavras nos documentos sejam permutáveis, mas também documentos, ou seja, a ordem dos documentos dentro de um corpus pode ser negligenciada, o teorema de De Finettiafirma que qualquer conjunto de variáveis aleatórias trocáveis tem uma representação como uma distribuição de mistura. Portanto, se a permutabilidade de documentos e palavras dentro dos documentos for assumida, é necessário um modelo de mistura para ambos. Exatamente é isso que o LDA geralmente alcança, mas o PMI ou o LSI não conseguem (e até o pLSI não é tão bonito quanto o LDA).