Temos um pequeno conjunto de dados (cerca de 250 amostras * 100 recursos) no qual queremos criar um classificador binário após selecionar o melhor subconjunto de recursos. Digamos que particionemos os dados em:
Treinamento, Validação e Teste
Para a seleção de recursos, aplicamos um modelo de wrapper com base na seleção de recursos que otimizam o desempenho dos classificadores X, Y e Z, separadamente. Nesta etapa de pré-processamento, usamos dados de treinamento para treinar os classificadores e dados de validação para avaliar cada subconjunto de recursos candidatos.
No final, queremos comparar os diferentes classificadores (X, Y e Z). Obviamente, podemos usar a parte de teste dos dados para uma comparação e avaliação justas. No entanto, no meu caso, os dados de teste seriam realmente pequenos (cerca de 10 a 20 amostras) e, portanto, desejo aplicar a validação cruzada para avaliar os modelos.
A distribuição dos exemplos positivos e negativos é altamente desequilibrada (cerca de 8: 2). Portanto, uma validação cruzada pode nos levar a avaliar o desempenho. Para superar isso, planejamos ter a parte de teste (10-20 amostras) como um segundo método de comparação e validar a validação cruzada.
Em resumo, estamos particionando dados em treinamento, validação e teste. As peças de treinamento e validação devem ser usadas para a seleção de recursos. Em seguida, a validação cruzada sobre os mesmos dados deve ser aplicada para estimar os modelos. Finalmente, o teste é usado para validar a validação cruzada, devido ao desequilíbrio dos dados.
A questão é: se usarmos os mesmos dados (treinamento + validação) usados na seleção dos recursos que otimizam o desempenho dos classificadores X, Y e Z, podemos aplicar a validação cruzada sobre os mesmos dados (treinamento + validação) usados na seleção de recursos medir o desempenho final e comparar os classificadores?
Não sei se essa configuração pode levar a uma medida de validação cruzada tendenciosa e resultar em comparação injustificada ou não.