Eu sei que, para acessar o desempenho do classificador, tenho que dividir os dados em conjunto de treinamento / teste. Mas lendo isso :
Ao avaliar configurações diferentes ("hiperparâmetros") para estimadores, como a configuração C que deve ser definida manualmente para um SVM, ainda existe o risco de sobreajuste no conjunto de testes, pois os parâmetros podem ser ajustados até que o estimador funcione de maneira otimizada. Dessa forma, o conhecimento sobre o conjunto de testes pode "vazar" no modelo e as métricas de avaliação não relatam mais o desempenho da generalização. Para resolver esse problema, ainda outra parte do conjunto de dados pode ser mantida como o chamado "conjunto de validação": o treinamento prossegue no conjunto de treinamento, após o qual a avaliação é feita no conjunto de validação e quando o experimento parece ser bem-sucedido , a avaliação final pode ser feita no conjunto de testes.
Vejo que outro (terceiro) conjunto de validação é introduzido, o que é justificado pela super adaptação do conjunto de testes durante o ajuste dos hiperparâmetros.
O problema é que não consigo entender como essa adaptação pode aparecer e, portanto, não consigo entender a justificativa do terceiro conjunto.