Modelos de tópicos para documentos curtos


14

Inspirado por essa pergunta , estou me perguntando se algum trabalho foi feito sobre modelos de tópicos para grandes coleções de textos extremamente curtos. Minha intuição é que o Twitter seja uma inspiração natural para esses modelos. No entanto, a partir de algumas experiências limitadas, parece que os modelos de tópicos padrão (LDA, etc.) apresentam um desempenho muito ruim nesse tipo de dados.

Alguém aí conhece algum trabalho que tenha sido feito nessa área? Este artigo fala sobre a aplicação do LDA no Twitter, mas estou realmente interessado em saber se existem outros algoritmos com melhor desempenho no contexto de documentos curtos.


2
O Twitter é um conjunto de dados particularmente difícil para modelagem de tópicos, não apenas pelo tamanho pequeno dos 'documentos', mas também pelo tipo de texto. As pessoas tendem a usar várias taquigrafia, o que dificulta ainda mais a identificação de co-ocorrências.
Nick

Veja a lista de bons papéis e os correspondentes códigos de fonte para a modelagem tópico em tweets em: quora.com/...
NQD

Respostas:


7

Essa é uma resposta tardia, mas pode ser útil para outras pessoas que pesquisam pesquisas e ferramentas relacionadas a esse problema:

  1. Weiwei Guo, da Columbia, implementou código para modelagem de tópicos em texto breve. Ele descreveu a implementação no artigo "Modelando Sentenças no Espaço Latente" ( http://aclweb.org/anthology-new/P/P12/P12-1091v2.pdf ) e o código está disponível aqui: http: // www .cs.columbia.edu / ~ weiwei / code.html

  2. Embora essa não seja a modelagem de tópicos, se você tiver uma tarefa de classificação envolvendo pequenos pedaços de texto, poderá usar o LibShortText. Na descrição do site

"O LibShortText é uma ferramenta de código aberto para classificação e análise de textos curtos. Ele pode lidar com a classificação de, por exemplo, títulos, perguntas, frases e mensagens curtas ..."

http://www.csie.ntu.edu.tw/~cjlin/libshorttext/


6

Embora eu não esteja muito familiarizado com o trabalho dele, sei que Jacob Eisenstein fez trabalhos em análise de texto e modelos gráficos em dados do twitter. Em particular, este artigo descreve uma aplicação da modelagem de tópicos em dados do twitter e microblogs.

Edit: na verdade, depois de ler um pouco mais o artigo, eles declaram:

No entanto, a mensagem média no Twitter é de apenas dezesseis tokens de palavras, o que é muito escasso para a modelagem de tópicos tradicional; em vez disso, reunimos todas as mensagens de um determinado usuário em um único documento.

Portanto, talvez esse artigo possa não ser de grande ajuda, mas talvez outras publicações da Eisenstein possam levá-lo na direção certa.


Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.