Ser mais rápido ou mais baixo é um termo relativo e deve ser entendido no contexto do que ele está se comparando. Portanto, para entender isso, devemos primeiro considerar como a descida do gradiente funciona com outros tipos da função de ativação.
Exemplo de configuração
n
z1=W1x+b1
a1=f(z1)
...
zn=Wnan−1+bn
y=f(zn)
f
Tanh e Sigmoid - gradiente de fuga
ff′(x)∈(−1,1)x
yW1
dfdW1=dfdWndWndWn−1...dW2dW1
0<i<n
dXidXi−1=f′(Wi−1ai−2+bi−1)×ai−2∈(−1,1)
(−1,1)f′ai−2(−1,1)
dfdW1ndfdW1
RELU e Dead Neuron
ai>0f
dXidXi−1=ai−2
dfdW1=a1a2a3...an−1
x>0x<0
RELU e ELU com vazamento
x>0x<1
Cito o artigo original pela diferença entre os dois.
Embora LReLUs e PReLUs também tenham valores negativos, eles não garantem um estado de desativação robusto ao ruído. As ELUs saturam para um valor negativo com entradas menores e, assim, diminuem a variação e as informações propagadas adiante.
A explicação intuitiva é a seguinte. Na ELU, sempre que x se tornava pequeno o suficiente, o gradiente se tornava realmente pequeno e saturado (da mesma forma que acontece com Tanh e Sigmoid). O pequeno gradiente significa que o algoritmo de aprendizado pode se concentrar no ajuste de outros pesos sem se preocupar com a interatividade com os neurônios saturados.
Considere um polinômio de grau 2 que pode ser representado como uma superfície lisa em um espaço 3D. Para encontrar o mínimo local, um algoritmo de descida de gradiente precisará considerar a inclinação na direção x e y. Se o gradiente for negativo na direção x e na direção y, não está claro qual caminho é melhor. Portanto, é sensato escolher um caminho em algum lugar no meio. Mas e se já sabemos que tudo é plano (gradientes zero) na direção x, então torna-se um acéfalo seguir a direção y. Ou, em outras palavras, você procura espaço se torna muito menor.
nota especial
No aprendizado profundo, há muitas reivindicações sem evidência empírica suficiente ou entendimento profundo para apoiá-lo. No caso da ELU, embora possa ser verdade que resulta em uma convergência mais rápida para alguns conjuntos de dados, também pode ser verdade que faz com que o algoritmo de aprendizado fique preso no máximo local para um conjunto de dados diferente. Ainda não sabemos o suficiente.