Por que as unidades lineares retificadas são consideradas não lineares?

Por que as funções de ativação de unidades lineares retificadas (ReLU) são consideradas não lineares?

f (x) = max (0 0, x)

$f(x) = \max(0,x)$

Eles são lineares quando a entrada é positiva e, do meu entendimento, para desbloquear o poder representativo das redes profundas, as ativações não lineares são uma obrigação; caso contrário, toda a rede poderá ser representada por uma única camada.

neural-networks deep-learning

— Aly
fonte

Há uma pergunta semelhante feita antes: stats.stackexchange.com/questions/275358/... embora provavelmente não é uma duplicata

— Aksakal

RELUs são não linearidades. Para ajudar sua intuição, considere uma rede muito simples com 1 unidade de entrada $x$ , 2 unidades ocultas $y_i$ e 1 unidade de saída $z$ . Com essa rede simples, poderíamos implementar uma função de valor absoluto,

z = max (0 0, x) + max (0 0, - x),

$z = \max(0, x) + \max(0, -x),$

ou algo parecido com a função sigmóide comumente usada,

z = max (0 0, x + 1) - max (0 0, x - 1) .

$z = \max(0, x + 1) - \max(0, x - 1).$

Combinando-os em redes maiores / usando mais unidades ocultas, podemos aproximar funções arbitrárias.

$\hskip2in$ Função de rede RELU

— Lucas
fonte

Esses tipos de ReLus construídos à mão seriam apriori e codificados como camadas? Em caso afirmativo, como você saberia que sua rede exigia um desses ReLus especialmente criados em particular?

— Monica Heddneck 16/09

@MonicaHeddneck Você pode especificar suas próprias não linearidades, sim. O que faz uma ativação funcionar melhor que a outra é um tópico constante de pesquisa. Por exemplo, costumávamos usar sigmóides, , mas, devido ao problema de gradiente de fuga, as ReLUs se tornaram mais populares. Portanto, depende de você usar diferentes funções de ativação de não linearidade.

σ (x) = \frac{1}{1 + e^{- x}}

$\sigma(x) = \frac{1}{1 + e^{-x}}$

— Tarin Ziyaee 19/09/16

Como você aproximaria com ReLU fora da amostra?

e^{x}

$e^x$

— Aksakal

@ Lucas, Então, basicamente, se combine (+)> 1 ReLUs, podemos aproximar qualquer função, mas se simplesmente reLu(reLu(....))for sempre linear? Além disso, aqui você muda xpara x+1, isso poderia ser pensado como Z=Wx+bonde W & b muda para dar variantes diferentes desse tipo x& x+1?

— anu