Estive repensando uma resposta que dei a uma pergunta há algumas semanas
A validação cruzada de retenção produz um único conjunto de testes que pode ser usado repetidamente para demonstração. Todos nós concordamos que isso é, de muitas maneiras, uma característica negativa, uma vez que o conjunto estendido pode se tornar não representativo por acaso. Além disso, você pode se ajustar demais aos dados de teste da mesma maneira que pode se ajustar aos dados de treinamento.
No entanto, parece-me que a natureza estática de uma amostra estendida é uma melhor aproximação de "obter mais dados" do que o CV com dobras k e evita a questão da média das dobras. Não posso, no entanto, apresentar nenhuma base estatística para esse sentimento que tenho. Existe alguma lógica na minha intuição?
Por exemplo, o que eu tenho em mente para um próximo projeto é primeiro usar a validação de espera para criar e testar um modelo e, em seguida, como uma etapa de validação redesenhar o conjunto de espera várias vezes para mostrar que minhas estimativas de erro de previsão ( no conjunto de teste) são robustos ao erro de amostragem no conjunto de teste. Esta é uma má ideia por algum motivo? Esta pergunta foi feita antes, mas nunca recebeu uma resposta.