Eu estava lendo sobre o otimizador de Adam para o Deep Learning e me deparei com a seguinte frase no novo livro Deep Learning de Bengio, Goodfellow e Courville:
Adam é geralmente considerado como sendo bastante robusto para a escolha de hiper parâmetros, embora a taxa de aprendizado às vezes precise ser alterada do padrão sugerido.
se isso é verdade, é importante, porque a pesquisa por hiper parâmetros pode ser realmente importante (pelo menos na minha experiência) no desempenho estatístico de um sistema de aprendizado profundo. Assim, minha pergunta é: por que Adam Robust está com parâmetros tão importantes? Especialmente e ?β 2
Eu li o artigo de Adam e ele não fornece nenhuma explicação para por que funciona com esses parâmetros ou por que é robusto. Eles justificam isso em outro lugar?
Além disso, ao ler o artigo, parece que o número de hiper parâmetros que eles tentaram foi muito pequeno, para apenas 2 e apenas 3. Como esse pode ser um estudo empírico completo se funcionar apenas com hiper parâmetros 2x3 ?β 2