Passei três dias brincando tm
depois de ler um rascunho de um amigo, onde ele explorou um corpus de texto com o UCINET, mostrando nuvens de texto, gráficos de rede em dois modos e decomposição de valor único (com gráficos, usando Stata). Corri sob um grande número de questões: no Mac OS X, há problemas com o Java por trás de bibliotecas como Snowball (stemming) ou Rgraphviz (gráficos).
Poderia alguém ponto fora não pacotes - que eu olhei tm
, wordfish
e wordscores
, e saber sobre NLTK - mas a pesquisa, se possível com código, em dados textuais, que usa com sucesso tm
ou qualquer outra coisa para analisar dados como debates parlamentares ou documentos legislativos? Não consigo encontrar muito sobre o assunto e muito menos código para aprender.
Meu próprio projeto é um debate parlamentar de dois meses, com essas variáveis informadas em um arquivo CSV: sessão parlamentar, orador, grupo parlamentar, texto de intervenção oral. Procuro divergências entre os oradores e, especialmente, entre grupos parlamentares no uso de termos raros e menos raros, por exemplo, "conversa sobre segurança" contra conversa sobre "liberdades civis".