f( x ) = max ( 0 , x ) .
Uma maneira de as ReLUs melhorarem as redes neurais é acelerar o treinamento. O cálculo do gradiente é muito simples (0 ou 1, dependendo do sinal de ). Além disso, a etapa computacional de uma ReLU é fácil: qualquer elemento negativo é definido como 0,0 - sem exponenciais, sem operações de multiplicação ou divisão.x
Os gradientes das redes tangentes logística e hiperbólica são menores que a porção positiva da ReLU. Isso significa que a parte positiva é atualizada mais rapidamente à medida que o treinamento avança. No entanto, isso tem um custo. O gradiente 0 no lado esquerdo tem seu próprio problema, chamado "neurônios mortos", no qual uma atualização de gradiente define os valores recebidos para uma ReLU, de modo que a saída é sempre zero; unidades ReLU modificadas, como ELU (ou Leaky ReLU, ou PReLU, etc.) podem melhorar isso.
ddxReLU(x)=1∀x>0 . Por outro lado, o gradiente de uma unidade sigmóide é no máximo ; por outro lado, melhor para entradas em uma região próxima de 0, desde (aproximadamente).0.25tanh0.25<ddxtanh(x)≤1∀x∈[−1.31,1.31]