É sempre uma boa ideia treinar com o conjunto de dados completo após a validação cruzada ? Dito de outra forma, é correto treinar com todas as amostras no meu conjunto de dados e não poder verificar se esse acessório específico se encaixa demais ?
Alguns antecedentes sobre o problema:
Digamos que eu tenha uma família de modelos parametrizados por . Diga também que eu tenho um conjunto de N pontos de dados e que faço a seleção de modelos com validação cruzada k-fold para escolher o modelo que melhor generaliza os dados.
Para a seleção do modelo, eu posso fazer uma pesquisa (por exemplo, uma pesquisa em grade) em executando, por exemplo, a validação cruzada em dobra k para cada candidato. Em cada uma das dobras na validação cruzada, acabo com o modelo aprendido β α .
O ponto da validação cruzada é que, para cada uma dessas dobras, posso verificar se o modelo aprendido estava super ajustado, testando-o em "dados invisíveis". Dependendo dos resultados, eu poderia escolher o modelo aprendido para os parâmetros → α melhor que generalizasse melhor durante a validação cruzada na pesquisa em grade.
Agora, digamos que após a seleção do modelo , eu gostaria de usar todos os pontos no meu conjunto de dados e espero aprender um modelo melhor. Por isso eu poderia usar os parâmetros → alfa b e s t correspondente ao modelo que eu escolhi durante a seleção do modelo e, em seguida, após o treinamento no conjunto de dados completo, eu faria um obter um novo aprendeu modelo β f u l l . O problema é que, se eu usar todos os pontos no meu conjunto de dados para treinamento, eu não posso verificar se este novo modelo aprendeu β f u l l causa overfitting em quaisquer dados invisíveis. Qual é a maneira correta de pensar sobre esse problema?