Como estou lidando com dados altamente desequilibrados, usei o algoritmo SMOTE para reamostrar o conjunto de dados.
Após a reamostragem do SMOTE, dividi o conjunto de dados reamostrado em conjuntos de treinamento / teste, usando o conjunto de treinamento para criar um modelo e um conjunto de testes para avaliar o modelo.
No entanto, estou preocupado com o fato de que alguns pontos de dados nos conjuntos de testes possam realmente tremer dos pontos de dados no conjunto de treinamento (ou seja, as informações estão vazando do conjunto de treinamento para o conjunto de testes), portanto, o conjunto de testes não é realmente um conjunto limpo para teste.
Alguém tem experiência semelhante? As informações realmente vazam do treinamento para os testes? Ou o algoritmo SMOTE realmente cuidou dele e não precisamos nos preocupar com isso?
Muito obrigado!