2
Nas redes neurais, por que usar métodos de gradiente em vez de outras metaheurísticas?
No treinamento de redes neurais profundas e rasas, por que os métodos de gradiente (por exemplo, descida de gradiente, Nesterov, Newton-Raphson) são comumente usados, em oposição a outras metaheurísticas? Por metaheurísticas, refiro-me a métodos como recozimento simulado, otimização de colônias de formigas etc., que foram desenvolvidos para evitar o empate …