Estou trabalhando em dados gravemente desequilibrados. Na literatura, vários métodos são utilizados para reequilibrar os dados usando re-amostragem (super ou sub-amostragem). Duas boas abordagens são:
SMOTE: Técnica de sobre-amostragem de minorias sintéticas ( SMOTE )
ADASYN: Abordagem de Amostra Sintética Adaptativa para Aprendizagem Desequilibrada ( ADASYN )
Eu implementei o ADASYN devido à sua natureza adaptativa e facilidade de extensão a problemas de várias classes.
Minha pergunta é como testar os dados superamostrados produzidos pelo ADASYN (ou qualquer outro método de superamostragem). Não está claro nos dois artigos mencionados como eles realizaram seus experimentos. Existem dois cenários:
1- Superexample todo o conjunto de dados e divida-o em conjuntos de treinamento e teste (ou validação cruzada).
2- Após dividir o conjunto de dados original, realize a superamostragem apenas no conjunto de treinamento e teste no conjunto de teste de dados original (pode ser realizado com validação cruzada).
No primeiro caso, os resultados são muito melhores do que sem a amostragem excessiva, mas estou preocupado se houver ajuste excessivo. Enquanto no segundo caso, os resultados são um pouco melhores do que sem superamostragem e muito piores que o primeiro caso. Mas a preocupação com o segundo caso é que, se todas as amostras da classe minoritária forem para o conjunto de testes, nenhum benefício será alcançado com a super amostragem.
Não tenho certeza se existem outras configurações para testar esses dados.