Para um ajuste excessivo na seleção de modelos, um artigo que valha a pena ler
C. Ambroise e GJ McLachlan, "Viés de seleção na extração de genes com base em dados de expressão de genes de microarray", PNAS, vol. 99 não. 10 6562-6566, maio de 2002. http://dx.doi.org/10.1073/pnas.102102699
Para uma discussão sobre o mesmo tipo de problema que surge na seleção de modelos, consulte
GC Cawley, NLC Talbot, "Sobre adaptação excessiva na seleção de modelos e viés de seleção subsequente na avaliação de desempenho", Journal of Machine Learning Research, 11 (julho): 2079-2107, 2010. http://jmlr.csail.mit. edu / papers / v11 / cawley10a.html
A maneira de resolver o problema do conjunto de validação que está sendo contaminado é usar a validação cruzada aninhada, para que o método usado para fazer escolhas sobre o modelo seja executado independentemente em cada dobra da validação cruzada usada para estimativa de desempenho. Essencialmente, a estimativa de desempenho deve estimar o desempenho de todo o procedimento de ajuste do modelo (ajuste do modelo, seleção de recursos, seleção de modelos, tudo).
A outra abordagem é ser bayesiana. O risco de ajuste excessivo é introduzido sempre que você otimiza um critério com base em uma amostra finita de dados; portanto, se você marginalizar (integrar) em vez de otimizar, o ajuste clássico é impossível. No entanto, você tem o problema de especificar os anteriores.