4
Como a função de ativação retilínea resolve o problema do gradiente de fuga nas redes neurais?
Encontrei a unidade linear retificada (ReLU) elogiada em vários locais como uma solução para o problema do gradiente de fuga para redes neurais. Ou seja, usa-se max (0, x) como função de ativação. Quando a ativação é positiva, é óbvio que isso é melhor do que, digamos, a função de …