Quais conjuntos de dados disponíveis gratuitamente posso usar para treinar um classificador de texto?
Estamos tentando melhorar o engajamento de nossos usuários, recomendando o conteúdo mais relacionado a ele. Pensamos que, se classificássemos nosso conteúdo com base em um conjunto predefinido de palavras, podemos recomendar a ele que envolva conteúdo, obtendo seu feedback sobre o número aleatório de postagens já classificadas. antes.
Podemos usar essas informações para recomendar pulsos rotulados com essas classes. Mas descobrimos Se usamos um conjunto predefinido de palavras não relacionadas ao nosso conteúdo, o vetor de recursos estará cheio de zeros, também as categorias podem não ser relevantes para o nosso conteúdo. por isso, tentamos outra solução que agrupará nosso conteúdo e não o classificará.
Obrigado :)