Quais são os benefícios do uso do ReLU sobre o softplus como funções de ativação?

21

É frequentemente mencionado que as unidades lineares retificadas (ReLU) substituíram as unidades softplus porque são lineares e mais rápidas de calcular.

O softplus ainda tem a vantagem de induzir esparsidade ou isso é restrito à ReLU?

A razão pela qual pergunto é que me pergunto sobre as consequências negativas da inclinação zero da ReLU. Essa propriedade não "prende" as unidades em zero, onde pode ser benéfico dar a elas a possibilidade de reativação?

machine-learning neural-networks

— brockl33
fonte

você já descobriu a resposta para isso?

— Charlie Parker

4

Encontrei uma resposta para sua pergunta na Seção 6.3.3 do livro Deep Learning . (Goodfellow et al., 2016):

O uso de softplus é geralmente desencorajado. ... pode-se esperar que ele tenha vantagem sobre o retificador por ser diferenciável em qualquer lugar ou por saturar menos completamente, mas empiricamente não.

Como referência para apoiar esta afirmação, eles citam o artigo Deep Sparse Rectifier Neural Networks (Glorot et. Al, 2011).

— Alexander Shchur
fonte

1

Penso que precisamos de mais esclarecimentos sobre "mas empiricamente não".

— nbro

2

As ReLUs podem ser desativadas permanentemente, principalmente sob altas taxas de aprendizado. Essa é uma motivação por trás das ativações com vazamentos de ReLU e ELU, ambas com gradiente diferente de zero em quase todos os lugares.

O LeaL ReLU é uma função linear por partes, assim como no ReLU, que é tão rápida de calcular. O ELU tem a vantagem sobre o softmax e o ReLU, pois sua produção média está mais próxima de zero, o que melhora o aprendizado.

— Hugh Perkins
fonte

O que significa "quase todos os lugares"?

— nbro

1

"quase todos os lugares" é um termo técnico que significa algo como "exceto em alguns pontos infinitamente pequenos". Por exemplo, a ReLU com vazamento não tem gradiente definido em x = 0.

— Hugh Perkins