Eu recomendo estes livros - eles também são altamente cotados na Amazon:
"Text Mining" de Weiss
"Programação de aplicativos de mineração de texto", de Konchady
Para o software, eu recomendo o RapidMiner (com o plug-in de texto), gratuito e de código aberto.
Este é o meu "processo de mineração de texto":
- coletar os documentos (geralmente um rastreamento na web)
- [amostra se for muito grande]
- timestamp
- remover marcação
- tokenize: divida em caracteres, palavras, n gramas ou janelas deslizantes
- stemming (também conhecido como lematização)
- [inclui sinônimos]
- veja pronomes porter ou algoritmo de floco de neve e artigos geralmente são preditores ruins
- remover palavras irrelevantes
- vetorização de características
- binário (aparece ou não)
- contagem de palavras
- frequência relativa: tf-idf
- ganho de informação, quadrado do chi
- [tenha um valor mínimo para inclusão]
- ponderação
- pesar palavras no topo do documento mais alto?
Então você pode começar o trabalho de classificá-los. kNN, SVM ou Naive Bayes, conforme apropriado.
Você pode ver minha série de vídeos de mineração de texto aqui