1
Por que ReLU é melhor que as outras funções de ativação
Aqui, a resposta se refere a gradientes de fuga e explosão que têm sigmoidfunções de ativação semelhantes, mas, eu acho, Relutem uma desvantagem e é seu valor esperado. não há limitação para a saída do Relue, portanto, seu valor esperado não é zero. Lembro-me da época anterior à popularidade Reludisso …