[Nota 5 de abril de 2019: Uma nova versão do documento foi atualizada no arXiv com muitos novos resultados. Também apresentamos versões de retorno do Momentum e NAG, e comprovamos a convergência sob as mesmas premissas do Backtracking Gradient Descent.
Os códigos-fonte estão disponíveis no GitHub no link: https://github.com/hank-nguyen/MBT-optimizer
Melhoramos os algoritmos de aplicação ao DNN e obtivemos um desempenho melhor do que algoritmos de última geração, como MMT, NAG, Adam, Adamax, Adagrad, ...
A característica mais especial de nossos algoritmos é que eles são automáticos; você não precisa fazer o ajuste manual das taxas de aprendizado como prática comum. Nosso ajuste fino automático é de natureza diferente de Adam, Adamax, Adagrad, ... e assim por diante. Mais detalhes estão no jornal.
]
Baseado em resultados muito recentes: No meu trabalho conjunto neste artigo https://arxiv.org/abs/1808.05160
f
Com base no exposto, propusemos um novo método de aprendizado profundo, que está em pé de igualdade com os métodos atuais de última geração e não precisa de ajustes manuais das taxas de aprendizado. (Em poucas palavras , a idéia é que você execute a descida do gradiente de retorno durante um certo período de tempo, até ver que as taxas de aprendizado, que mudam a cada iteração, se estabilizam. Esperamos que essa estabilização, em particular em um ponto crítico C ^ 2 e não é degenerado, devido ao resultado de convergência que mencionei acima.Neste ponto, você muda para o método de descida gradiente padrão. Consulte o artigo citado para obter mais detalhes.Este método também pode ser aplicado a outros algoritmos ideais .)
PS Com relação à sua pergunta original sobre o método de descida de gradiente padrão, que eu saiba apenas no caso em que a derivada do mapa é globalmente Lipschitz e a taxa de aprendizado é pequena o suficiente para que o método de descida de gradiente padrão seja comprovadamente convergido. [Se essas condições não forem satisfeitas, existem contra-exemplos simples que mostram que nenhum resultado de convergência é possível, consulte o artigo citado para alguns.] No artigo citado acima, argumentamos que, a longo prazo, o método de descida gradiente de retorno será o método de descida de gradiente padrão, que explica por que o método de descida de gradiente padrão geralmente funciona bem na prática.