Portanto, atualmente as funções de ativação mais usadas são as Re-Lus. Então eu respondi a esta pergunta Qual é o objetivo de uma função de ativação nas redes neurais? e enquanto escrevia a resposta, como exatamente a função não linear aproximada de Re-Lu pode?
Por pura definição matemática, com certeza, é uma função não linear devido à curva acentuada, mas se nos limitarmos à parte positiva ou negativa do eixo x, então será linear nessas regiões. Digamos que tomemos todo o eixo x também, então também é meio linear (não no sentido matemático estrito) no sentido de que ele não pode aproximar satisfatoriamente funções curvilíneas como onda senoidal ( 0 --> 90
) com uma camada oculta de um único nó possível por um sigmóide função de ativação.
Então, qual é a intuição por trás do fato de que Re-Lu's são usados em NNs, fornecendo desempenho satisfatório (não estou perguntando o objetivo dos Re-lu), mesmo sendo lineares? Ou funções não lineares como sigmóide e tanh são lançadas no meio da rede algumas vezes?
EDIT: Conforme comentário de @ Eka, Re-Lu deriva sua capacidade de descontinuidade atuando nas camadas profundas da Rede Neural. Isso significa que os Re-Lu são bons, desde que sejam usados em Deep NN's e não em NN raso?
max(0,x)
atuando em camadas profundas da rede neural. Há uma pesquisa openai em que calculado funções não-lineares usando um profundo redes lineares aqui está o link blog.openai.com/nonlinear-computation-in-linear-networks