Parece que o otimizador Adaptive Moment Estimation (Adam) quase sempre funciona melhor (atingindo um mínimo global mais rápido e confiável) ao minimizar a função de custo no treinamento de redes neurais.
Por que nem sempre usa Adam? Por que se preocupar em usar o RMSProp ou otimizadores de momento?