Ao treinar uma rede neural usando o algoritmo de retropropagação, o método de descida de gradiente é usado para determinar as atualizações de peso. Minha pergunta é: Em vez de usar o método de descida de gradiente para localizar lentamente o ponto mínimo com relação a um determinado peso, por que não definimos a derivada , e encontre o valor do peso que minimiza o erro?
Além disso, por que temos certeza de que a função de erro na propagação traseira será mínima? Não é possível que a função de erro seja máxima? Existe uma propriedade específica das funções de esmagamento que garanta que uma rede com qualquer número de nós ocultos com pesos arbitrários e vetores de entrada sempre dê uma função de erro com alguns mínimos?