Tenho a impressão de que muito do que está sendo feito aqui é extremamente heurístico. De fato, a maioria das pessoas parece aplicar isso aos <120 caracteres das declarações do twitter. Provavelmente, os resultados (embora não sejam computados dessa maneira) não são muito melhores do que contar palavras "positivas" e "negativas" com uma informação de posição de litte ("A melhor que B" = positivo para A, negativo para B)
Quando você vê empresas comprando um feed completo do twitter (que é quantos mbit por segundo?) E alegando fazer uma análise de sentimentos sobre isso, isso me faz pensar seriamente se há alguma validade estatística aqui. Não é de admirar, por exemplo, que o Yahoo tenha falhado mal em prever as pré-eleições para a Carolina do Sul: http://www.technologyreview.com/web/39487/
As pessoas estão maneira de orgulho e Keen em apenas sendo em tudo capaz de processar a quantidade de dados, eles parecem completamente à negligência validar corretamente o seu desempenho.
Desculpe por ser tão pessimista quanto ao estado da arte.