Parece-me que você está construindo um classificador de texto com um estágio de treinamento supervisionado no início, onde atribui rótulos manualmente. Seu modelo está com bom desempenho (alta precisão e recuperação), portanto, você deseja complementar o modelo de treinamento inicial com um processo de treinamento não supervisionado em novas seqüências de entrada.
Essas novas entradas terão alguns sinais conhecidos (palavras que você já viu antes), para que seu modelo possa fazer seu trabalho bem, mas também terão sinais desconhecidos (palavras que você não viu antes). Você deseja que seu processo de treinamento não supervisionado associe essas novas palavras às conhecidas, para "aprender". Dessa forma, você confia que a associação entre a nova palavra e a palavra conhecida está correta. Como o processamento de idiomas é tão difícil, você provavelmente irá gerar associações positivas positivas automaticamente, que teriam sido excluídas / corrigidas em um ambiente supervisionado. Assim, ao fazer o aprendizado não supervisionado, você corre o risco de diminuir sua precisão.
Sua pergunta é sobre estar "sobrecarregado" com muitos dados. Essa é uma preocupação justa e depende muito do tamanho dos dados, da escolha da implementação e das expectativas de comportamento do sistema. Embora a capacidade de resposta e a capacidade de lidar com grandes quantidades de dados sejam uma coisa, sinto que a precisão e o recall do seu algoritmo de rotulagem de sentimentos são provavelmente da maior importância.
No artigo que você vinculou, o autor possui uma pontuação de confiança que faz com que associações não supervisionadas sejam consideradas apenas se houver uma "alta confiança". Isso é bom, mas ainda existe o risco de que, com o tempo, sua precisão geral caia. Seu sistema precisaria ser avaliado periodicamente quanto à precisão e recuperação, e treinado novamente. O exemplo "Bad Santa" nos comentários é um bom exemplo. Sugiro que você leia sobre o treinamento semi-supervisionado e obtenha essa rotulagem corretamente em pequenos conjuntos de dados antes de confiar que funcione bem em conjuntos de dados muito maiores. O processamento de idiomas é difícil!