Recentemente, li um artigo de Yann Dauphin et al. Identificando e atacando o problema do ponto de sela na otimização não convexa de alta dimensão , onde eles introduzem um interessante algoritmo de descida chamado Saddle-Free Newton , que parece ser exatamente adaptado para otimização de rede neural e não deve sofrer por ficar preso em pontos de sela como métodos de primeira ordem como o SGD de baunilha.
O artigo remonta a 2014, então não é nada novo, no entanto, eu não o vi sendo usado "na natureza". Por que esse método não está sendo usado? A computação hessiana é proibitiva demais para problemas / redes do tamanho real? Existe alguma implementação de código aberto desse algoritmo, possivelmente para ser usada em algumas das principais estruturas de aprendizado profundo?
Atualização de fevereiro de 2019: existe uma implementação disponível agora: https://github.com/dave-fernandes/SaddleFreeOptimizer )