Aqui, a resposta se refere a gradientes de fuga e explosão que têm sigmoid
funções de ativação semelhantes, mas, eu acho, Relu
tem uma desvantagem e é seu valor esperado. não há limitação para a saída do Relu
e, portanto, seu valor esperado não é zero. Lembro-me da época anterior à popularidade Relu
disso tanh
ser a mais popular entre os especialistas em aprendizado de máquina sigmoid
. O motivo foi que o valor esperado de tanh
era igual a zero e ajudou a aprender em camadas mais profundas a ser mais rápido em uma rede neural. Relu
não possui essa característica, mas por que está funcionando tão bem se colocarmos de lado sua vantagem derivativa. Além disso, acho que o derivado também pode ser afetado. Porque as ativações (saída deRelu
) estão envolvidos no cálculo das regras de atualização.
CNN
normalização típica a saída do relu
não é comum? Pelo menos eu nunca vi isso.