Sei que executar o ajuste de hiperparâmetros fora da validação cruzada pode levar a estimativas enviesadas de validade externa, porque o conjunto de dados que você usa para medir o desempenho é o mesmo usado para ajustar os recursos.
O que eu quero saber é o quão ruim é esse problema . Eu posso entender como seria muito ruim para a seleção de recursos, pois isso oferece um grande número de parâmetros para ajustar. Mas e se você estiver usando algo como LASSO (que possui apenas um parâmetro, a força da regularização) ou uma floresta aleatória sem seleção de recurso (que pode ter alguns parâmetros, mas nada tão dramático quanto adicionar / soltar recursos de ruído)?
Nesses cenários, quão otimista você poderia esperar que sua estimativa de erro de treinamento fosse?
Eu apreciaria qualquer informação sobre isso - estudos de caso, documentos, anedotas, etc. Obrigado!
EDIT: Para esclarecer, eu estou não falar de estimar o desempenho do modelo em dados de treinamento (ou seja, não usar validação cruzada em tudo). Por "ajuste do hiperparâmetro fora da validação cruzada", quero dizer o uso da validação cruzada apenas para estimar o desempenho de cada modelo individual, mas não incluindo um segundo loop externo de validação cruzada para corrigir a sobreajuste no procedimento de ajuste do hiperparâmetro (distinto de sobreajuste durante o procedimento de treinamento). Veja, por exemplo, a resposta aqui .