Eu sei que esse tópico é bastante antigo e outros fizeram um ótimo trabalho para explicar conceitos como mínimos locais, superajuste etc. No entanto, como o OP estava procurando uma solução alternativa, tentarei contribuir com um e espero que ele inspire idéias mais interessantes.
A idéia é substituir todo peso w para w + t, onde t é um número aleatório após a distribuição gaussiana. A saída final da rede é então a saída média sobre todos os valores possíveis de t. Isso pode ser feito analiticamente. Você pode otimizar o problema com descida de gradiente ou LMA ou outros métodos de otimização. Depois que a otimização estiver concluída, você terá duas opções. Uma opção é reduzir o sigma na distribuição gaussiana e fazer a otimização repetidamente até que o sigma atinja 0, então você terá um mínimo local melhor (mas potencialmente isso pode causar super ajuste). Outra opção é continuar usando aquela com o número aleatório em seus pesos, pois geralmente possui melhor propriedade de generalização.
A primeira abordagem é um truque de otimização (eu chamo de tunelamento convolucional, pois utiliza convolução sobre os parâmetros para alterar a função de destino), suaviza a superfície do cenário da função de custo e se livra de alguns dos mínimos locais, assim facilite encontrar o mínimo global (ou melhor, o mínimo local).
A segunda abordagem está relacionada à injeção de ruído (em pesos). Observe que isso é feito analiticamente, o que significa que o resultado final é uma única rede, em vez de várias redes.
A seguir, são exemplos de saídas para o problema de duas espirais. A arquitetura de rede é a mesma para todos os três: existe apenas uma camada oculta de 30 nós e a camada de saída é linear. O algoritmo de otimização usado é LMA. A imagem da esquerda é para definição de baunilha; o meio está usando a primeira abordagem (ou seja, reduzir repetidamente o sigma para 0); o terceiro está usando sigma = 2.
Você pode ver que a solução de baunilha é a pior, o tunelamento convolucional faz um trabalho melhor e a injeção de ruído (com tunelamento convolucional) é a melhor (em termos de propriedade de generalização).
Tanto o tunelamento convolucional quanto a maneira analítica de injeção de ruído são minhas idéias originais. Talvez eles sejam a alternativa em que alguém possa estar interessado. Os detalhes podem ser encontrados no meu artigo Combinando o número infinito de redes neurais em uma . Aviso: Eu não sou um escritor acadêmico profissional e o artigo não é revisado por pares. Se você tiver dúvidas sobre as abordagens que mencionei, deixe um comentário.