Eu tenho um conjunto de dados de um pacote de palavras. Escolho aleatoriamente alguns pontos e os uso para testes e os outros são usados para treinamento.
- case (1) Apenas pego cada ponto de dados do conjunto de teste e o classifico como tendo o mesmo rótulo de classe que seu ponto mais próximo do conjunto de trem.
- case (2) Eu faço a classificação usando qualquer classificador supervisionado conhecido.
Eu sempre obtenho uma melhor taxa de reconhecimento no caso (1). Ou seja, não aprender nada, é melhor do que usar aprendizado supervisionado para esse conjunto de dados (e outros)! Essa é uma situação frequente?