Eu tenho 2 conjuntos de dados, um com instâncias positivas do que eu gostaria de detectar e outro com instâncias não identificadas. Quais métodos posso usar?
Como exemplo, suponha que desejamos entender a detecção de email de spam com base em algumas características estruturadas de email. Temos um conjunto de dados de 10000 emails de spam e um conjunto de dados de 100000 emails para os quais não sabemos se são spam ou não.
Como podemos resolver esse problema (sem rotular manualmente nenhum dado não marcado)?
O que podemos fazer se tivermos informações adicionais sobre a proporção de spam nos dados não rotulados (ou seja, se estimamos que entre 20-40% dos 100.000 e-mails não rotulados são spam)?