Ouvi Andrew Ng (em um vídeo que infelizmente não consigo mais encontrar) falar sobre como a compreensão dos mínimos locais em problemas de aprendizagem profunda mudou no sentido de que agora eles são considerados menos problemáticos porque em espaços de alta dimensão (encontrados em aprendizado profundo) é mais provável que os pontos críticos sejam pontos de sela ou platôs, em vez de mínimos locais.
Eu já vi artigos (por exemplo, este ) que discutem suposições sob as quais "todo mínimo local é um mínimo global". Essas suposições são todas bastante técnicas, mas pelo que entendi elas tendem a impor uma estrutura na rede neural que a torna um tanto linear.
É uma afirmação válida de que, no aprendizado profundo (incluindo arquiteturas não lineares), os platôs são mais prováveis que os mínimos locais? E se sim, existe uma intuição (possivelmente matemática) por trás disso?
Existe algo em particular sobre aprendizado profundo e pontos de sela?