Eu acho que a resposta atualmente aceita é incompleta de uma maneira infeliz. Eu não concordo com a frase
O objetivo da validação cruzada é identificar parâmetros de aprendizado que generalizem bem em todas as amostras da população que aprendemos em cada dobra.
Esta é realmente uma aplicação muito importante da validação cruzada, mas não a única. Normalmente, você quer fazer duas coisas:
- Crie o melhor modelo possível
- Obtenha uma impressão precisa de quão bem ele executa
Agora, para concluir o objetivo 1, dependendo do seu algoritmo, talvez seja necessário ajustar alguns hiperparâmetros e isso é realmente feito com validação cruzada. Mas isso ainda não ajuda no objetivo 2. Para isso, você precisa basicamente aninhar a validação cruzada, assim:
- Separar dados inteiros em n dobras
- Para cada um, dobre os dados de treinamento novamente em subpastas
- Use a validação cruzada nas subpastas para aprender bons hiperparâmetros
- Com esses hiperparâmetros, construa um modelo nos dados de treinamento dessa dobra
- Teste o modelo nos dados de teste
- Repita na próxima dobra
Para construir um bom modelo, você só precisa da validação cruzada interna. Você ainda precisará fazer isso para obter um bom modelo. Mas, para obter uma boa estimativa do desempenho do modelo, é necessário executar todo o processo de construção do modelo dentro de um esquema de validação cruzada. Isso também inclui etapas como imputação etc.