Quais são os benefícios do uso do ReLU sobre o softplus como funções de ativação?


21

É frequentemente mencionado que as unidades lineares retificadas (ReLU) substituíram as unidades softplus porque são lineares e mais rápidas de calcular.

O softplus ainda tem a vantagem de induzir esparsidade ou isso é restrito à ReLU?

A razão pela qual pergunto é que me pergunto sobre as consequências negativas da inclinação zero da ReLU. Essa propriedade não "prende" as unidades em zero, onde pode ser benéfico dar a elas a possibilidade de reativação?


você já descobriu a resposta para isso?
Charlie Parker

Respostas:


4

Encontrei uma resposta para sua pergunta na Seção 6.3.3 do livro Deep Learning . (Goodfellow et al., 2016):

O uso de softplus é geralmente desencorajado. ... pode-se esperar que ele tenha vantagem sobre o retificador por ser diferenciável em qualquer lugar ou por saturar menos completamente, mas empiricamente não.

Como referência para apoiar esta afirmação, eles citam o artigo Deep Sparse Rectifier Neural Networks (Glorot et. Al, 2011).


1
Penso que precisamos de mais esclarecimentos sobre "mas empiricamente não".
nbro

2

As ReLUs podem ser desativadas permanentemente, principalmente sob altas taxas de aprendizado. Essa é uma motivação por trás das ativações com vazamentos de ReLU e ELU, ambas com gradiente diferente de zero em quase todos os lugares.

O LeaL ReLU é uma função linear por partes, assim como no ReLU, que é tão rápida de calcular. O ELU tem a vantagem sobre o softmax e o ReLU, pois sua produção média está mais próxima de zero, o que melhora o aprendizado.


O que significa "quase todos os lugares"?
nbro

1
"quase todos os lugares" é um termo técnico que significa algo como "exceto em alguns pontos infinitamente pequenos". Por exemplo, a ReLU com vazamento não tem gradiente definido em x = 0.
Hugh Perkins
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.