Em algumas palestras e tutoriais que eu já vi, eles sugerem dividir seus dados em três partes: treinamento, validação e teste. Mas não está claro como o conjunto de dados de teste deve ser usado, nem como essa abordagem é melhor do que a validação cruzada de todo o conjunto de dados.
Digamos que economizamos 20% de nossos dados como um conjunto de testes. Depois, pegamos o resto, dividimos em k dobras e, usando a validação cruzada, encontramos o modelo que faz a melhor previsão sobre dados desconhecidos desse conjunto de dados. Digamos que o melhor modelo encontrado tenha uma precisão de 75% .
Vários tutoriais e muitas perguntas em vários sites de perguntas e respostas dizem que agora podemos verificar nosso modelo em um conjunto de dados salvo (teste). Mas ainda não consigo entender exatamente como isso é feito, nem qual é o objetivo disso.
Digamos que tenhamos uma precisão de 70% no conjunto de dados de teste. Então, o que faremos a seguir? Tentamos outro modelo, e depois outro, até obtermos uma pontuação alta em nosso conjunto de dados de teste? Mas, nesse caso, parece que apenas encontraremos o modelo que se encaixa em nosso conjunto de testes limitado (apenas 20%) . Isso não significa que vamos encontrar o modelo que é melhor em geral.
Além disso, como podemos considerar esse escore como uma avaliação geral do modelo, se ele é calculado apenas em um conjunto de dados limitado? Se essa pontuação for baixa, talvez tenhamos sido azarados e selecionados dados de teste "ruins".
Por outro lado, se usarmos todos os dados que temos e escolhermos o modelo usando a validação cruzada com dobras k, encontraremos o modelo que faz a melhor previsão sobre dados desconhecidos de todo o conjunto de dados que temos.