O LDA pode ser usado para detectar o tópico de UM ÚNICO documento?
Sim, em sua representação específica de 'tópico' e com um corpus de treinamento de documentos (geralmente relacionados).
O LDA representa tópicos como distribuições por palavras e documentos como distribuições por tópicos. Ou seja, um objetivo muito da LDA é chegar à representação probabilística de cada documento como um conjunto de tópicos. Por exemplo, a implementação do LDA em gensim
pode retornar essa representação para qualquer documento.
Mas isso depende dos outros documentos do corpus: qualquer documento terá uma representação diferente se analisado como parte de um corpus diferente.
Isso normalmente não é considerado uma falha: a maioria dos aplicativos de LDA se concentra em documentos relacionados. O artigo que introduz a LDA o aplica a dois corpora, um dos artigos da Associated Press e um dos resumos de artigos científicos. A publicação bem acessível de Edwin Chen aplica a LDA a uma parcela de e-mails da época de Sarah Palin como governadora do Alasca.
Se seu aplicativo exigir a separação de documentos em classes conhecidas e mutuamente exclusivas, os tópicos derivados do LDA poderão ser usados como recursos para classificação. De fato, o artigo inicial faz exatamente isso com o corpus AP, com bons resultados.
De maneira semelhante, a demonstração de Chen não classifica documentos em classes exclusivas, mas seus documentos concentram sua probabilidade principalmente em tópicos únicos da LDA. Como David Blei explica nesta videoconferência , os priores de Dirichlet podem ser escolhidos para favorecer a esparsidade. Mais simplesmente, "um documento é penalizado por usar muitos tópicos", como dizem os slides. Parece que o LDA mais próximo pode chegar a um único tópico não supervisionado, mas certamente não garante que todos os documentos sejam representados como tal.