Eu tenho um conjunto de dados de teste altamente desequilibrado. O conjunto positivo consiste em 100 casos, enquanto o conjunto negativo consiste em 1500 casos. No lado do treinamento, eu tenho um pool de candidatos maior: o conjunto de treinamento positivo tem 1200 casos e o conjunto de treinamento negativo tem 12000 casos. Para esse tipo de cenário, tenho várias opções:
1) Usando SVM ponderado para todo o conjunto de treinamento (P: 1200, N: 12000)
2) Usando o SVM com base no conjunto de treinamento amostrado (P: 1200, N: 1200), os 1200 casos negativos são amostrados de 12000 casos.
Existe alguma orientação teórica para decidir qual abordagem é melhor? Como o conjunto de dados de teste é altamente desequilibrado, devo usar o conjunto de treinamento desequilibrado também?