Eu já ouvi a seguinte expressão antes:
"Otimização é a raiz de todo mal nas estatísticas".
Por exemplo, a resposta principal neste tópico faz essa afirmação em referência ao perigo de otimizar de forma muito agressiva durante a seleção do modelo.
Minha primeira pergunta é a seguinte: Essa citação é atribuível a alguém em particular? (por exemplo, na literatura estatística)
Pelo que entendi, a afirmação se refere aos riscos de sobreajuste. A sabedoria tradicional diria que a validação cruzada adequada já luta contra esse problema, mas parece que há mais nesse problema do que isso.
Os estatísticos e profissionais de ML devem ter cuidado com a otimização excessiva de seus modelos, mesmo quando aderem a protocolos rígidos de validação cruzada (por exemplo, 100 CV de 10 vezes aninhado)? Se sim, como sabemos quando parar de procurar o "melhor" modelo?