Por que nem sempre usar a técnica de otimização do ADAM?

13

Parece que o otimizador Adaptive Moment Estimation (Adam) quase sempre funciona melhor (atingindo um mínimo global mais rápido e confiável) ao minimizar a função de custo no treinamento de redes neurais.

Por que nem sempre usa Adam? Por que se preocupar em usar o RMSProp ou otimizadores de momento?

neural-network optimization

— PyRsquared
fonte

1

Não acredito que exista uma maneira formal e estrita de apoiar qualquer uma dessas afirmações. É tudo puramente empírico, pois a superfície do erro é desconhecida. Como uma regra de ouro, e exclusivamente a partir de m experiência, ADAM faz bem onde outros falham (segmentação exemplo), embora não sem inconvenientes (convergência não monótona é)

— Alex

2

Adam é mais rápido para convergir. O SGD é mais lento, mas generaliza melhor. Então, no final, tudo depende de suas circunstâncias particulares.

— precisa saber é

14

Aqui está uma postagem de blog revisando um artigo alegando que o SGD é um adaptador generalizado melhor que o ADAM. https://shaoanlu.wordpress.com/2017/05/29/sgd-all-which-one-is-the-best-optimizer-dogs-vs-cats-toy-experiment/

Geralmente, há um valor em usar mais de um método (um conjunto), porque todo método tem uma fraqueza.

— Christopher Klaus
fonte

4

Você também deve dar uma olhada nesta publicação comparando diferentes otimizadores de descida de gradiente. Como você pode ver abaixo, Adam claramente não é o melhor otimizador para algumas tarefas, pois muitas convergem melhor.

— M Sef
fonte

Apenas para constar: no artigo vinculado, eles mencionam algumas das falhas do ADAM e apresentam a AMSGrad como uma solução. No entanto, eles concluem que se a AMSGrad supera o ADAM nas práticas é (no momento da redação deste documento) não conclusivo.

— Lus