Meus alunos fazem isso como seu projeto de classe. Algumas equipes atingem os 70% de precisão, com amostras bem pequenas, o que não é ruim.
Digamos que você tenha alguns dados como este:
Return Symbol News Text
-4% DELL Centegra and Dell Services recognized with Outsourcing Center's...
7% MSFT Rising Service Revenues Benefit VMWare
1% CSCO Cisco Systems (CSCO) Receives 5 Star Strong Buy Rating From S&P
4% GOOG Summary Box: Google eyes more government deals
7% AAPL Sohu says 2nd-quarter net income rises 10 percent on higher...
Você deseja prever o retorno com base no texto.
Isso é chamado de Mineração de Texto.
O que você faz é criar uma matriz enorme como esta:
Return Centegra Rising Services Recognized...
-4% 0.23 0 0.11 0.34
7% 0 0.1 0.23 0
...
Que possui uma coluna para cada palavra exclusiva, e uma linha para cada retorno e uma pontuação ponderada para cada palavra. A pontuação geralmente é a pontuação do TFIDF ou a frequência relativa da palavra no documento.
Em seguida, você executa uma regressão e vê se consegue prever quais palavras prevêem o retorno. Você provavelmente precisará usar o PCA primeiro.
Livro: Fundamentos da mineração preditiva de texto, Weiss
Software: RapidMiner com plug-in de texto ou R
Você também deve fazer uma pesquisa no Google Scholar e ler os detalhes.
Você pode ver minha série de vídeos de mineração de texto aqui