Suponho que você já entenda por que o desempenho no conjunto de treinamento não é representativo do desempenho real do modelo treinado: ajuste excessivo. Os parâmetros que você aprende durante o treinamento são otimizados para o conjunto de treinamento. Se você não for cuidadoso, poderá otimizar demais os parâmetros, levando a um modelo que é realmente muito bom no conjunto de treinamento, mas não generaliza para dados do mundo real completamente invisíveis.
O fato é que, na prática, os "parâmetros" do método de treinamento não são a única coisa que você precisa especificar para um exemplo de aprendizado. Você também tem hiperparâmetros. Agora, esses hiperparâmetros podem ser uma parte explícita do ajuste do modelo (como taxa de aprendizado), mas você também pode ver outras opções como "hiperparâmetros": você escolhe um SVM ou uma rede neural? Se você implementa a parada antecipada, em que momento você para?
Assim como o ajuste excessivo dos parâmetros no conjunto de treinamento, você pode ajustar demais os hiperparâmetros ao conjunto de validação . Assim que você usa os resultados do método no conjunto de validação para informar como faz a modelagem, agora você tem a chance de realizar o overfitting no conjunto de treinamento + conjunto de validação. Talvez esse conjunto de validação específico seja melhor com um SVM do que no caso geral.
Essa é a principal razão pela qual as pessoas separam os conjuntos de validação e teste. Se você usar um aparelho durante o ajuste do modelo - mesmo no nível "hmm, esse método não funciona tão bem, talvez eu deva tentar ..." - os resultados obtidos nesse aparelho não serão totalmente indicativos do geral resultados que você obterá com dados completamente novos. É por isso que você mantenha uma fração dos dados até o muito fim, além do ponto onde você está fazendo todas as decisões sobre o que fazer.