Eu acho que ainda está faltando algo em sua compreensão do objetivo da validação cruzada.
Vamos esclarecer algumas terminologias, geralmente quando dizemos 'um modelo' nos referimos a um método específico para descrever como alguns dados de entrada se relacionam com o que estamos tentando prever. Geralmente, não nos referimos a instâncias específicas desse método como modelos diferentes. Então você pode dizer 'Eu tenho um modelo de regressão linear', mas você não chamaria dois conjuntos diferentes de coeficientes treinados de modelos diferentes. Pelo menos não no contexto da seleção de modelos.
Portanto, quando você faz a validação cruzada com dobra K, está testando o quão bem seu modelo é treinado por alguns dados e, em seguida, prevê dados que não foram vistos. Usamos a validação cruzada para isso, porque se você treina usando todos os dados que possui, não resta nenhum para teste. Você pode fazer isso uma vez, digamos, usando 80% dos dados para treinar e 20% para testar, mas e se os 20% escolhidos para testar contiverem vários pontos que são particularmente fáceis (ou particularmente difíceis) prever? Não teremos a melhor estimativa possível da capacidade dos modelos de aprender e prever.
Queremos usar todos os dados. Portanto, para continuar o exemplo acima de uma divisão 80/20, faríamos uma validação cruzada 5 vezes treinando o modelo 5 vezes em 80% dos dados e testando em 20%. Garantimos que cada ponto de dados termine no teste de 20% definido exatamente uma vez. Portanto, usamos todos os pontos de dados que temos para contribuir para entender como nosso modelo executa a tarefa de aprender com alguns dados e prever alguns novos dados.
Mas o objetivo da validação cruzada não é apresentar nosso modelo final. Não usamos essas 5 instâncias do nosso modelo treinado para fazer uma previsão real. Para isso, queremos usar todos os dados que temos para criar o melhor modelo possível. O objetivo da validação cruzada é a verificação do modelo, não a construção do modelo.
Agora, digamos que temos dois modelos, digamos um modelo de regressão linear e uma rede neural. Como podemos dizer qual modelo é melhor? Podemos fazer a validação cruzada com dobra K e ver qual deles é melhor na previsão dos pontos de ajuste do teste. Porém, depois que usamos a validação cruzada para selecionar o modelo com melhor desempenho, treinamos esse modelo (seja a regressão linear ou a rede neural) em todos os dados. Não usamos as instâncias reais do modelo que treinamos durante a validação cruzada para o nosso modelo preditivo final.
Observe que existe uma técnica chamada agregação de autoinicialização (geralmente abreviada para 'ensacamento') que usa instâncias de modelo produzidas de maneira semelhante à validação cruzada para criar um modelo de conjunto, mas que é uma técnica avançada além do escopo da sua pergunta aqui.