O sobreajuste pode ocorrer nos algoritmos de otimização avançada?

8

ao fazer um curso on-line sobre aprendizado de máquina por Andrew Ng no coursera, deparei-me com um tópico chamado sobreajuste . Eu sei que isso pode ocorrer quando a descida do gradiente é usada na regressão logística ou linear, mas pode ocorrer quando são usados algoritmos de Otimização Avançada, como "Gradiente Conjugado", "BFGS" e "L-BFGS"?

— Saksham
fonte

11

Não existe uma técnica que elimine completamente o risco de sobreajuste. Os métodos que você listou são apenas maneiras diferentes de ajustar um modelo linear. Um modelo linear terá um mínimo global, e esse mínimo não deve mudar, independentemente do sabor da descida do gradiente que você estiver usando (a menos que esteja usando regularização); portanto, todos os métodos listados serão superajustados (ou underfit) igualmente.

Passando de modelos lineares para modelos mais complexos, como o aprendizado profundo, você corre ainda mais risco de sofrer ajustes excessivos. Eu tive muitas redes neurais complicadas que se ajustaram muito mal, mesmo que a convolução reduza a chance de se ajustar demais, compartilhando pesos. Em resumo, não existe um marcador de prata para o ajuste excessivo, independentemente da família do modelo ou da técnica de otimização.

— Ryan Zotti
fonte

4

A super adaptação é geralmente o resultado dos dados e da estrutura do seu modelo. Os algoritmos 'avançados' que você menciona têm usos específicos que podem ou não executar outros métodos, dependendo de seus objetivos e dados. Aqui está uma fonte para algumas leituras adicionais: http://papers.nips.cc/paper/1895-overfitting-in-neural-nets-backpropagation-conjugate-gradient-and-early-stopping.pdf

— Hobbes
fonte