Estou procurando compilar um corpus de sentimentos para artigos de notícias em vários idiomas (~ 100 mil por idioma. Para um experimento de aprendizado de máquina) em que cada artigo é rotulado como positivo, neutro ou negativo. Pesquisei alto e baixo, mas não consegui encontrar nada parecido com este disponível. Eu já tenho os artigos de notícias em cada idioma.
Minha pergunta à comunidade é: como você conseguiria isso com a maior precisão possível?
Eu estava olhando pela primeira vez para o Mechanical Turk , onde você pode contratar pessoas para rotular cada artigo manualmente para você. E este pode ser o melhor caminho a seguir, mas caro .
Em seguida, pensei em todas essas bibliotecas populares existentes (alguns dos Mechanical Turk quais já usado) que faça análise de sentimento ( AFINN , Bing Liu , MPQA , VADER , TextBlob , etc.)
- Ideia de sentimento
Minha idéia atual é que eu publique cada artigo de notícias em algumas dessas bibliotecas (por exemplo, AFINN, TextBlob e VADER) e nos artigos que mostram positivo, negativo e neutro por unanimidade, embora todas as três libs sejam aceitas no corpus. Parece um processo de verificação bastante forte e razoável?
- Idéia de idioma
A próxima edição refere-se à própria linguagem. O pipeline de 3 libs acima pode ser executado em inglês sem problemas. No entanto, essas bibliotecas não suportam a uniformidade de muitos outros idiomas (espanhol, alemão, chinês, árabe, francês, português etc.). Eu estava pensando em fazer o que o VADER sugere e pegar as notícias em idiomas que não o inglês e enviá-las pela Tradução do Google API para colocá-los em inglês e enviá-los pelo pipeline de 3 lib existente acima. Sei que haverá uma perda na semântica para muitos artigos. No entanto, minha esperança é que artigos suficientes sejam traduzidos o suficiente para que alguns passem pelo pipeline de 3 lib.
Estou ciente de que a tradução e o envio de artigos de notícias através desse canal de sentimentos triplos às cegas pode levar um corpus de 100 mil e produzir 10 mil resultados. Eu estou bem com isso. A precisão e o preço são a minha preocupação. Eu posso facilmente adquirir mais dados.
O que você faria para ser uma maneira mais precisa de obter um corpus de sentimentos de artigos de notícias? Existe uma prática recomendada existente para montar um corpus como este?