Espero que os trechos a seguir forneçam uma ideia do que será minha pergunta. Estes são de http://neuralnetworksanddeeplearning.com/chap3.html
O aprendizado então diminui gradualmente. Finalmente, por volta da época 280, a precisão da classificação praticamente para de melhorar. Épocas posteriores apenas veem pequenas flutuações estocásticas próximas ao valor da precisão na época 280. Compare isso com o gráfico anterior, onde o custo associado aos dados de treinamento continua caindo suavemente. Se apenas olharmos para esse custo, parece que nosso modelo ainda está ficando "melhor". Mas os resultados da precisão do teste mostram que a melhoria é uma ilusão. Assim como o modelo que Fermi não gostou, o que nossa rede aprende após a época 280 não generaliza mais os dados de teste. E, portanto, não é um aprendizado útil. Dizemos que a rede está se adaptando demais ou treinando além da época 280.
Estamos treinando uma rede neural e o custo (em dados de treinamento) está caindo até a época 400, mas a precisão da classificação está se tornando estática (exceto algumas flutuações estocásticas) após a época 280, portanto concluímos que o modelo está adaptando-se aos dados de treinamento após a época 280.
Podemos ver que o custo dos dados de teste melhora até a época 15, mas depois disso começa a piorar, mesmo que o custo dos dados de treinamento continue melhorando. Esse é outro sinal de que nosso modelo está se ajustando demais. Isso coloca um enigma, porém, que é se devemos considerar a época 15 ou 280 como o ponto em que a super adaptação está dominando o aprendizado? Do ponto de vista prático, o que realmente interessa é melhorar a precisão da classificação nos dados do teste, enquanto o custo nos dados do teste não passa de um proxy para a precisão da classificação. E, portanto, faz mais sentido considerar a época 280 como o ponto além do qual a super adaptação está dominando o aprendizado em nossa rede neural.
Ao contrário da precisão da classificação nos dados de teste em comparação com o custo de treinamento anteriormente, agora estamos colocando o custo nos dados de teste em relação ao custo de treinamento.
Em seguida, o livro continua explicando por que 280 é a época certa em que a adaptação foi iniciada. É com isso que tenho um problema. Não consigo entender isso.
Estamos pedindo ao modelo para minimizar o custo e, portanto, o custo é a métrica que ele usa como uma medida de sua própria força para classificar corretamente. Se considerarmos 280 como a época certa em que a super adaptação foi iniciada, não criamos um modelo tendencioso que, apesar de ser um classificador melhor nos dados de teste específicos, ainda assim esteja tomando decisões com baixa confiança e, portanto, mais propenso a desviar-se dos resultados mostrados nos dados de teste?