Eu sou um novato quando se trata de aprendizado de máquina. Estou tentando obter experiência prática analisando diferentes algoritmos de aprendizado supervisionado usando a biblioteca scikit-learn de python. Estou usando o conjunto de dados sentiment140 de 1,6 milhão de tweets para análise de sentimentos usando vários desses algoritmos.
Não sei se é uma pergunta estúpida, mas estava pensando se seria possível classificar em três classes (positiva, negativa e neutra) quando você treinou apenas duas classes (positiva e negativa). O conjunto de treinamento sentiment140 consiste em apenas duas classes (positivas e negativas) de 1,6 milhão de tweets no total, mas o conjunto de testes consiste em 500 tweets em três classes (positiva, negativa e neutra), por isso me fez pensar.
Então isso é possível? Se sim, como procedo para identificar os tweets neutros? Intuitivamente, eu posso usar para encontrar a probabilidade condicional de cada tweet classificado no conjunto de testes de cada classe (usando prever_proba) e dizer se é neutro se estiver abaixo de um determinado limite (digamos, menos de 0,7) para as classes positiva e negativa . Este é o caminho certo a seguir?
sentiment 140 training set
consiste em apenas duas classes, como é que o conjunto de treinamento consiste em três classes? Não está claro.