Eu tenho que lidar com um problema de classificação de texto. Um rastreador da Web rastreia páginas de um determinado domínio e, para cada página da Web, quero descobrir se ele pertence a apenas uma classe específica ou não. Ou seja, se eu chamar essa classe de Positivo , cada página da Web rastreada pertence à classe Positiva ou à Não Positiva .
Eu já tenho um grande conjunto de páginas da web para a classe Positive . Mas como criar um conjunto de treinamento para a classe Não Positiva, o mais representativo possível? Quero dizer, eu poderia usar basicamente tudo e todos nessa aula. Posso apenas coletar algumas páginas arbitrárias que definitivamente não pertencem à classe Positive ? Tenho certeza de que o desempenho de um algoritmo de classificação de texto (eu prefiro usar o algoritmo Naive Bayes) depende muito de quais páginas da Web eu escolho para a classe Não Positiva .
Então o que devo fazer? Alguém pode me dar um conselho? Muito obrigado!