Por que nem sempre usar a técnica de otimização do ADAM?


13

Parece que o otimizador Adaptive Moment Estimation (Adam) quase sempre funciona melhor (atingindo um mínimo global mais rápido e confiável) ao minimizar a função de custo no treinamento de redes neurais.

Por que nem sempre usa Adam? Por que se preocupar em usar o RMSProp ou otimizadores de momento?


1
Não acredito que exista uma maneira formal e estrita de apoiar qualquer uma dessas afirmações. É tudo puramente empírico, pois a superfície do erro é desconhecida. Como uma regra de ouro, e exclusivamente a partir de m experiência, ADAM faz bem onde outros falham (segmentação exemplo), embora não sem inconvenientes (convergência não monótona é)
Alex

2
Adam é mais rápido para convergir. O SGD é mais lento, mas generaliza melhor. Então, no final, tudo depende de suas circunstâncias particulares.
precisa saber é

Respostas:



4

Você também deve dar uma olhada nesta publicação comparando diferentes otimizadores de descida de gradiente. Como você pode ver abaixo, Adam claramente não é o melhor otimizador para algumas tarefas, pois muitas convergem melhor.


Apenas para constar: no artigo vinculado, eles mencionam algumas das falhas do ADAM e apresentam a AMSGrad como uma solução. No entanto, eles concluem que se a AMSGrad supera o ADAM nas práticas é (no momento da redação deste documento) não conclusivo.
Lus
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.