Eu rotulei dados compostos por 10000 exemplos positivos e 50000 exemplos negativos, fornecendo um total de 60000 exemplos. Obviamente esses dados estão desequilibrados.
Agora, digamos que quero criar meu conjunto de validação e quero usar 10% dos meus dados para fazer isso. Minha pergunta é a seguinte:
Devo garantir que meu conjunto de validação TAMBÉM esteja desequilibrado (como um aceno para a verdadeira distribuição do conjunto de treinamento) ou devo garantir que meu conjunto de validação esteja equilibrado? Por exemplo, meu conjunto de validação deve ser feito de:
- 10% de exemplo positivo + 10% de negativo, dando mais de 1000 e 5000 exemplos. (Este conjunto de validação reflete o desequilíbrio dos dados originais).
- Ou o conjunto de validação deve ser feito com, digamos, 10% de positivo, dando 1000+ e (10/5 = 2%) negativos, dando também 1000 exemplos?
(Mesma pergunta para o conjunto de teste).
Parece haver muitos métodos para treinar com dados desequilibrados, mas não onde posso encontrar as melhores práticas para determinar se meu conjunto de validação deve ou não refletir o desequilíbrio original ou não. Por fim, NÃO estou fazendo validação cruzada, usarei um único conjunto de validação e uma rede neural.
Obrigado!