No Deep Learning de François Chollet com Python, ele diz:
Como resultado, o ajuste da configuração do modelo com base em seu desempenho no conjunto de validação pode resultar rapidamente na adaptação excessiva ao conjunto de validação, mesmo que seu modelo nunca seja treinado diretamente sobre ele.
Central para esse fenômeno é a noção de vazamento de informações. Sempre que você ajusta um hiperparâmetro do seu modelo com base no desempenho do modelo no conjunto de validação, algumas informações sobre os dados de validação são vazadas no modelo . Se você fizer isso apenas uma vez, para um parâmetro, muito poucos bits de informações vazarão e seu conjunto de validação permanecerá confiável para avaliar o modelo. Mas se você repetir isso várias vezes - executando uma experiência, avaliando o conjunto de validação e modificando seu modelo como resultado -, você vazará uma quantidade cada vez mais significativa de informações sobre a validação definida no modelo.
Por que as informações sobre os dados de validação vazaram se eu avalio o desempenho do modelo nos dados de validação ao ajustar os hiperparâmetros?