Estendendo a resposta de @Dikran Marsupial ....
Anna Choromanska e seus colegas do grupo de Yan LeCunn na NYU abordam isso em seu artigo de 2014 da AISTATS "A superfície de perda de redes multicamadas" . Usando a teoria da matriz aleatória, juntamente com alguns experimentos, eles argumentam que:
Para redes de tamanho grande, a maioria dos mínimos locais é equivalente e produz um desempenho semelhante em um conjunto de testes.
A probabilidade de encontrar um mínimo local "ruim" (alto valor) é diferente de zero para redes de tamanho pequeno e diminui rapidamente com o tamanho das redes.
Lutar para encontrar o mínimo global no conjunto de treinamento (em oposição a um dos muitos bons locais) não é útil na prática e pode levar ao excesso de ajustes.
[Da página 2 do artigo]
Nesta visão, não há um grande motivo para implantar abordagens pesadas para encontrar o mínimo global. Seria melhor gastar tempo tentando novas topologias de rede, recursos, conjuntos de dados etc.
Dito isto, muitas pessoas pensaram em aumentar ou substituir o SGD. Para redes razoavelmente pequenas (pelos padrões contemporâneos), essas metahurísticas aprimoradas parecem fazer algo que Mavrovouniotis e Yang (2016) mostram que a otimização das colônias de formigas + o backprop supera o backprop não modificado em vários conjuntos de dados de referência (embora não muito). Rere el al. (2015) usam o recozimento simulado para treinar uma CNN e descobrir que ela inicialmente apresenta melhor desempenho no conjunto de validação. Após 10 épocas, no entanto, resta apenas uma diferença muito pequena (e não testada quanto à significância) no desempenho. A vantagem da convergência por época mais rápida também é compensada por uma quantidade dramaticamente maior de tempo de computação por época, portanto, essa não é uma vitória óbvia para o recozimento simulado.
É possível que essas heurísticas façam um melhor trabalho ao inicializar a rede e, uma vez apontada no caminho certo, qualquer otimizador o fará. Sutskever et al. (2013) do grupo de Geoff Hinton argumentam algo assim em seu artigo de 2013 da ICML .