Parece haver conselhos conflitantes por aí sobre como lidar com a comparação de erro de teste de trem versus teste, principalmente quando há uma lacuna entre os dois. Parece haver duas escolas de pensamento que, para mim, parecem conflitar. Estou procurando entender como conciliar os dois (ou entender o que estou perdendo aqui).
Pensamento # 1: Uma lacuna entre o desempenho do trem e do conjunto de testes por si só não indica ajuste excessivo
Primeiro, (também discutido aqui: como as comparações de erro de treinamento e teste podem ser indicativas de super ajuste) ? ), A idéia de que uma diferença entre o conjunto de treinamento e teste não pode indicar super ajuste. Isso concorda com minha experiência prática com, por exemplo, métodos de árvore de conjuntos, onde, mesmo após o ajuste de hiperparâmetro baseado na validação cruzada, a diferença entre erro de trem e teste pode permanecer um pouco grande. Mas (independentemente do tipo de modelo), desde que o erro de validação não volte, você estará bem. Pelo menos, esse é o pensamento.
Pensamento 2: Quando você vê uma lacuna entre o desempenho do trem e do teste: faça coisas que combatam o excesso de ajuste
No entanto, existem conselhos de fontes muito boas que sugerem que uma diferença entre erro de trem e teste é indicativa de sobreajuste. Aqui está um exemplo: A palestra "Porcas e parafusos da aprendizagem profunda", de Andrew Ng (uma palestra fantástica) https://www.youtube.com/watch?v=F1ka6a13S9I onde, por volta do horário 48:00, ele desenha um fluxograma que diz "se o erro do seu conjunto de trens é baixo e o erro do conjunto de trens é alto, você deve adicionar regularização, obter mais dados ou alterar a arquitetura do modelo" ... que são todas as ações que você pode executar para combater o super ajuste.
O que me leva a ... : Estou perdendo alguma coisa aqui? Essa é uma regra prática específica do modelo (geralmente os modelos mais simples parecem ter menos espaço entre o trem e o teste)? Ou existem simplesmente duas escolas de pensamento diferentes?