Por uma questão de simplicidade, digamos que estou trabalhando no exemplo clássico de emails de spam / não spam.
Eu tenho um conjunto de 20000 e-mails. Destas, sei que 2000 são spam, mas não tenho nenhum exemplo de email que não seja spam. Eu gostaria de prever se os 18000 restantes são spam ou não. Idealmente, o resultado que estou procurando é uma probabilidade (ou um valor-p) de que o email seja spam.
Que algoritmo (s) posso usar para fazer uma previsão sensata nessa situação?
No momento, estou pensando em um método baseado em distância que me diga como o meu email é semelhante a um email de spam conhecido. Que opções eu tenho?
De maneira mais geral, posso usar um método de aprendizado supervisionado ou preciso necessariamente ter casos negativos em meu conjunto de treinamento para fazer isso? Estou limitado a abordagens de aprendizado não supervisionadas? E os métodos semi-supervisionados?