Um artigo recente As superfícies de perda de redes multicamadas oferece algumas explicações possíveis para isso. Do resumo (negrito é meu):
"Conjecturamos que o recozimento simulado e o SGD convergem para a faixa de baixos pontos críticos, e que todos os pontos críticos encontrados existem mínimos locais de alta qualidade medidos pelo erro de teste. Isso enfatiza uma grande diferença entre redes de grande e pequeno porte onde, para os últimos mínimos locais de baixa qualidade, a probabilidade de recuperação não é zero. Finalmente, provamos que a recuperação do mínimo global se torna mais difícil à medida que o tamanho da rede aumenta e que, na prática, é irrelevante, pois o mínimo global geralmente leva a superajustes ".
Muitas pessoas influentes na aprendizagem profunda (Yann LeCunn e Yoshua Bengio, para citar alguns) e alguns pesquisadores que vêm mais do ponto de vista matemático (Rong Ge e outros colaboradores da Sanjeev Arora) têm discutido e explorado essas idéias.
No artigo acima mencionado, veja a Figura 3, que mostra um fenômeno de faixas / concentração dos valores mínimos locais, pois as redes têm mais unidades ocultas. A faixa / concentração representa alguma evidência empírica de que, para modelos mais profundos ou maiores, um mínimo local é "bom o suficiente", pois seus valores de perda são aproximadamente semelhantes. E o mais importante, eles têm uma perda que é mais próxima do mínimo global à medida que o modelo se torna mais complexo (neste caso, mais amplo, mas na prática, mais profundo).
Além disso, eles usam um modelo de spin-glass, que até afirmam ser apenas um modelo e não necessariamente indicativo da imagem verdadeira, para mostrar que alcançar o minimizador global a partir de mínimos locais pode demorar exponencialmente:
"Para encontrar um mínimo mais baixo, precisamos passar por um ponto de sela. Portanto, devemos subir pelo menos até o nível em que haja uma quantidade igual de pontos de sela para ter uma chance decente de encontrar um caminho que possa eventualmente seguir para outro mínimo local. Esse processo leva um tempo exponencialmente longo, portanto, na prática, encontrar o mínimo global não é viável ".
A pesquisa da Rong Ge está centrada na quebra de pontos de sela. Yoshua Bengio e seus colaboradores apresentaram uma hipótese bastante ousada de Saddle Point:
Argumentamos aqui, com base nos resultados da física estatística, teoria das matrizes aleatórias, teoria das redes neurais e evidências empíricas, que uma dificuldade mais profunda e mais profunda se origina da proliferação de pontos de sela, e não de mínimos locais, especialmente em problemas dimensionais de interesse prático. . Esses pontos de sela são cercados por altos platôs de erros que podem diminuir drasticamente o aprendizado e dar a impressão ilusória da existência de um mínimo local.
fonte aqui: Identificando e atacando o problema do ponto de sela na otimização não-convexa de alta dimensão.
Até certo ponto, as duas abordagens acima não são exatamente as mesmas (a hipótese do ponto de sela pode questionar o que é realmente um mínimo local e o que é apenas um ponto de sela mal condicionado com uma região de platô muito longa?). A idéia por trás da hipótese do ponto de sela é que é possível projetar métodos de otimização para romper os pontos de sela, por exemplo, Newton sem sela do artigo Bengio, para acelerar potencialmente a convergência e talvez até atingir o melhor global. O primeiro artigo da Multilayer Loss Surface não está realmente preocupado em atingir o ideal global e realmente acredita que ele tem algumas propriedades de sobreposição inadequadas. Curiosamente, ambos os artigos usam idéias da física estatística e dos modelos de vidro giratório.
Mas eles estão meio que relacionados, pois os dois artigos acreditam que, para alcançar o minimizador global, é preciso superar o desafio de otimização dos pontos de sela. O primeiro artigo apenas acredita que os mínimos locais são bons o suficiente.
É justo questionar se métodos de momento e outros novos algoritmos de otimização, que podem estimar algumas propriedades de curvatura de 2ª ordem, podem escapar dos pontos de sela. Uma famosa animação de Alec Radford aqui .
Para responder à sua pergunta: "de onde vem essa crença?" Eu pessoalmente acho que é possível usar diferentes sementes aleatórias para aprender pesos diferentes, mas as redes correspondentes têm desempenho quantitativo semelhante. Por exemplo, se você definir duas sementes aleatórias diferentes para a inicialização do peso Glorot, provavelmente aprenderá pesos diferentes, mas se treinar usando métodos de otimização semelhantes, as redes terão desempenho semelhante. Uma crença comum do folclore é que o cenário de otimização é semelhante ao de uma caixa de ovos, outro bom post sobre isso aqui: Não há mais mínimos locais? com a analogia da caixa de ovos.
Edit: Eu só queria deixar claro que a analogia da caixa de ovos não é verdadeira, caso contrário não haveria necessidade de impulso ou outras técnicas de otimização mais avançadas. Porém, sabe-se que o SGD não funciona tão bem quanto o SGD + Momentum ou algoritmos de otimização mais modernos, talvez devido à existência de pontos de sela.