4
O problema do gradiente de fuga pode ser resolvido multiplicando a entrada de tanh por um coeficiente?
Para meu entendimento, o problema do gradiente de fuga ocorre ao treinar redes neurais quando o gradiente de cada função de ativação é menor que 1, de modo que, quando as correções são propagadas de novo por várias camadas, o produto desses gradientes se torna muito pequeno. Sei que existem …