Suponha que eu tenha treinado vários modelos no conjunto de treinamento, escolha o melhor usando o conjunto de validação cruzada e o desempenho medido no conjunto de teste. Então agora eu tenho um melhor modelo final. Devo treiná-lo novamente em todos os dados disponíveis ou enviar soluções treinadas apenas no conjunto de treinamento? Se for o último, então por quê?
ATUALIZAÇÃO: Como observou P.Windridge, enviar um modelo reciclado significa basicamente enviar um modelo sem validação. Mas podemos relatar o desempenho do conjunto de testes e, depois disso, treinar novamente o modelo com dados completos, esperando justamente que o desempenho seja melhor - porque usamos o melhor modelo e mais dados. Que problemas podem surgir dessa metodologia?