Relu tem 0 gradiente por definição, então por que o gradiente desaparecer não é um problema para x <0?

10

Por definição, Relu é max(0,f(x)). Em seguida, a sua inclinação é definida como: 1 if x > 0 and 0 if x < 0.

Isso não significa que o gradiente é sempre 0 (desaparece) quando x <0? Então, por que dizemos que Relu não sofre com o problema de desaparecimento do gradiente?

deep-learning

— Edamame
fonte

5

Você está quase correto! A ReLU tem um problema com o gradiente desaparecendo, mas apenas de um lado, por isso chamamos de outra coisa: o 'problema da ReLU que está morrendo'. Veja esta resposta de estouro de pilha para obter mais informações: Qual é o problema "ReLU moribundo" nas redes neurais?

É uma pequena diferença semântica. Muitas funções (tanh e logística / sigmóide) têm derivadas muito próximas de zero quando você está fora da faixa de operação padrão. Essa é a questão do 'gradiente de fuga'. Quanto pior você fica, mais difícil é voltar à zona boa. O ReLU não piora quanto mais você estiver na direção positiva, portanto, não haverá problema de gradiente de fuga (nesse lado). Essa assimetria pode ser suficiente para justificar chamá-la de algo diferente, mas as idéias são bastante semelhantes.

— Joseph Catrambone
fonte

2

Vale acrescentar: O problema do gradiente de fuga tende a ser sobre mudanças progressivas na profundidade de uma rede, e não diretamente sobre as propriedades das funções de transferência de neurônios.

— Neil Slater

1

Desaparecer significa que ele vai para 0, mas nunca será realmente 0. Ter gradientes de 0 facilita os cálculos, ter gradientes próximos de 0 significa que há alterações, apenas pequenas, o que significa aprendizado lento e problemas numéricos. 1 e 0 são dois dos números mais fáceis de calcular nesse tipo de problemas de otimização.

— Jan van der Vegt
fonte