Aqui, a resposta se refere a gradientes de fuga e explosão que têm sigmoidfunções de ativação semelhantes, mas, eu acho, Relutem uma desvantagem e é seu valor esperado. não há limitação para a saída do Relue, portanto, seu valor esperado não é zero. Lembro-me da época anterior à popularidade Reludisso tanhser a mais popular entre os especialistas em aprendizado de máquina sigmoid. O motivo foi que o valor esperado de tanhera igual a zero e ajudou a aprender em camadas mais profundas a ser mais rápido em uma rede neural. Relunão possui essa característica, mas por que está funcionando tão bem se colocarmos de lado sua vantagem derivativa. Além disso, acho que o derivado também pode ser afetado. Porque as ativações (saída deRelu) estão envolvidos no cálculo das regras de atualização.
CNNnormalização típica a saída do relunão é comum? Pelo menos eu nunca vi isso.