O meu entendimento é que, mesmo quando seguindo procedimentos transversais adequados de seleção de validação e modelo, overfitting vai acontecer se um pesquisas para um modelo com força suficiente , a menos que restrições impõe a complexidade do modelo, período. Além disso, muitas vezes as pessoas tentam aprender multas na complexidade do modelo a partir dos dados, o que prejudica a proteção que eles podem fornecer.
Minha pergunta é: quanta verdade existe na afirmação acima?
Eu sempre ouço os profissionais de ML dizerem: " Na minha empresa / laboratório, sempre tentamos todos os modelos disponíveis (por exemplo, de bibliotecas como Caret ou Scikit-Learn ) para ver qual deles funciona melhor ". Costumo argumentar que essa abordagem pode facilmente superestimar, mesmo que levem a sério a validação cruzada e mantenham os conjuntos de espera da maneira que desejarem. Além disso, quanto mais eles pesquisam, maior a probabilidade de se super-ajustar. Em outras palavras, a super otimização é um problema real e não há heurísticas que possam ajudá-lo a lutar sistematicamente contra ela. Estou errado em pensar assim?