Inspirado por essa pergunta , estou me perguntando se algum trabalho foi feito sobre modelos de tópicos para grandes coleções de textos extremamente curtos. Minha intuição é que o Twitter seja uma inspiração natural para esses modelos. No entanto, a partir de algumas experiências limitadas, parece que os modelos de tópicos padrão (LDA, etc.) apresentam um desempenho muito ruim nesse tipo de dados.
Alguém aí conhece algum trabalho que tenha sido feito nessa área? Este artigo fala sobre a aplicação do LDA no Twitter, mas estou realmente interessado em saber se existem outros algoritmos com melhor desempenho no contexto de documentos curtos.