Lista abrangente de funções de ativação em redes neurais com prós / contras

Existe algum documento de referência que forneça uma lista abrangente de funções de ativação em redes neurais, juntamente com seus prós / contras (e, idealmente, alguns indicadores para publicações em que foram bem-sucedidos ou não tão bem-sucedidos)?

neural-networks references

— Franck Dernoncourt
fonte

Não sei o suficiente sobre RNAs, mas, a menos que as funções de ativação diferam substancialmente de forma, será muito difícil diferenciá-las. Para uma discussão de uma situação análoga, você pode ver minha resposta aqui: Diferença entre os modelos logit e probit .

— gung

não, faz uma grande diferença.

— Viliami 21/04/19

pt.wikipedia.org/wiki/Activation_function é um bom recurso; você pode usar muitos outros, inclusive sin(x), consulte openreview.net/pdf?id=Sks3zF9eg .

— Piotr Migdal

Para vídeo tutorial sobre funções de ativação, visite: quickkt.com/tutorials/artificial-intelligence/deep-learning/...

— Vinay Kumar

Respostas:

144

Vou começar a fazer uma lista aqui das que aprendi até agora. Como @marcodena disse, prós e contras são mais difíceis, porque na maioria das vezes são apenas heurísticas aprendidas ao tentar essas coisas, mas acho que pelo menos ter uma lista do que elas são não pode machucar.

Primeiro, definirei a notação explicitamente para que não haja confusão:

Notação

Esta notação é do livro de Neilsen .

Uma Rede Neural Feedforward é formada por várias camadas de neurônios conectados. Ele recebe uma entrada e, em seguida, ela entra pela rede e a rede neural retorna um vetor de saída.

Mais formalmente, chamar a activação (aka saída) do neurónio no camada, em que é o elemento no vector de entrada. $a^i_j$ $j^{th}$ $i^{th}$ $a^1_j$ $j^{th}$

Em seguida, podemos relacionar a entrada da próxima camada com a anterior por meio da seguinte relação:

{uma}_{j}^{Eu} = σ (\sum_{k} (W_{j k}^{Eu} \cdot {uma}_{k}^{Eu - 1}) + b_{j}^{Eu})

$a^i_j = \sigma\bigg(\sum\limits_k (w^i_{jk} \cdot a^{i-1}_k) + b^i_j\bigg)$

Onde

é a função de ativação, $\sigma$
é o peso doneurônio nacamada para oneurônio nacamada , $w^i_{jk}$ $k^{th}$ $(i-1)^{th}$ $j^{th}$ $i^{th}$
é o viés doneurônio nacamada , e $b^i_j$ $j^{th}$ $i^{th}$
representa o valor de ativação do neurônio nacamada . $a^i_j$ $j^{th}$ $i^{th}$

Às vezes, escrevemos para representar , em outras palavras, o valor de ativação de um neurônio antes de aplicar a função de ativação. $z^i_j$ $\sum\limits_k (w^i_{jk} \cdot a^{i-1}_k) + b^i_j$

insira a descrição da imagem aqui

Para uma notação mais concisa, podemos escrever

{uma}^{Eu} = σ (W^{Eu} \times {uma}^{Eu - 1} + b^{Eu})

$a^i = \sigma(w^i \times a^{i-1} + b^i)$

Para utilizar esta fórmula para calcular a saída de uma rede de alimentação de entrada para alguma entrada , definir , em seguida, calcular , em que é o número de camadas. $I \in \mathbb{R}^n$ $a^1 = I$ $a^2, a^3, \ldots, a^m$ $m$

Funções de Ativação

(a seguir, escreveremos vez de para facilitar a leitura) $\exp(x)$ $e^x$

Identidade

Também conhecida como função de ativação linear.

{uma}_{j}^{Eu} = σ (z_{j}^{Eu}) = z_{j}^{Eu}

$a^i_j = \sigma(z^i_j) = z^i_j$

Identidade

Degrau

{uma}_{j}^{Eu} = σ (z_{j}^{Eu}) = {\begin{cases} 0 0 & E se z_{j}^{Eu} < 0 0 \\ 1 & E se z_{j}^{Eu} > 0 0 \end{cases}

$a^i_j = \sigma(z^i_j) = \begin{cases} 0 & \text{if } z^i_j < 0 \\ 1 & \text{if } z^i_j > 0 \end{cases}$

Degrau

Linear por partes

$x_{\min}$ $x_{\max}$

{uma}_{j}^{Eu} = σ (z_{j}^{Eu}) = {\begin{cases} 0 0 & E se z_{j}^{Eu} < x_{min} \\ m z_{j}^{Eu} + b & E se x_{min} \leq z_{j}^{Eu} \leq x_{max} \\ 1 & E se z_{j}^{Eu} > x_{max} \end{cases}

$a^i_j = \sigma(z^i_j) = \begin{cases} 0 & \text{if } z^i_j < x_{\min} \\ m z^i_j+b & \text{if } x_{\min} \leq z^i_j \leq x_{\max} \\ 1 & \text{if } z^i_j > x_{\max} \end{cases}$

Onde

m = \frac{1}{x_{max} - x_{min}}

$m = \frac{1}{x_{\max}-x_{\min}}$

b = - m x_{min} = 1 - m x_{max}

$b = -m x_{\min} = 1 - m x_{\max}$

Linear por partes

Sigmoid

a_{j}^{Eu} = σ (z_{j}^{Eu}) = \frac{1}{1 + \exp (- z_{j}^{Eu})}

$a^i_j = \sigma(z^i_j) = \frac{1}{1+\exp(-z^i_j)}$

Sigmoid

Log-log complementar

{uma}_{j}^{Eu} = σ (z_{j}^{Eu}) = 1 - \exp (- \exp (z_{j}^{Eu}))

$a^i_j = \sigma(z^i_j) = 1 − \exp\!\big(−\exp(z^i_j)\big)$

Log-log complementar

Bipolar

{uma}_{j}^{Eu} = σ (z_{j}^{Eu}) = {\begin{cases} - 1 & E se z_{j}^{Eu} < 0 0 \\ 1 & E se z_{j}^{Eu} > 0 0 \end{cases}

$a^i_j = \sigma(z^i_j) = \begin{cases} -1 & \text{if } z^i_j < 0 \\ \ \ \ 1 & \text{if } z^i_j > 0 \end{cases}$

Bipolar

Sigmoide bipolar

{uma}_{j}^{Eu} = σ (z_{j}^{Eu}) = \frac{1 - \exp (- z_{j}^{Eu})}{1 + \exp (- z_{j}^{Eu})}

$a^i_j = \sigma(z^i_j) = \frac{1-\exp(-z^i_j)}{1+\exp(-z^i_j)}$ Sigmoide bipolar

Tanh

{uma}_{j}^{Eu} = σ (z_{j}^{Eu}) = \tanh (z_{j}^{Eu})

$a^i_j = \sigma(z^i_j) = \tanh(z^i_j)$

Tanh

LeCun's Tanh

Consulte Backprop eficiente .

{uma}_{j}^{Eu} = σ (z_{j}^{Eu}) = 1.7159 \tanh (\frac{2}{3} z_{j}^{Eu})

$a^i_j = \sigma(z^i_j) = 1.7159 \tanh\!\left( \frac{2}{3} z^i_j\right)$

LeCun's Tanh

Escalado:

O Tanh de LeCun em Escala

Hard Tanh

{uma}_{j}^{Eu} = σ (z_{j}^{Eu}) = max (- 1, min (1, z_{j}^{Eu}))

$a^i_j = \sigma(z^i_j) = \max\!\big(-1, \min(1, z^i_j)\big)$

Hard Tanh

Absoluto

{uma}_{j}^{Eu} = σ (z_{j}^{Eu}) = ∣ z_{j}^{Eu} ∣

$a^i_j = \sigma(z^i_j) = \mid z^i_j \mid$

Absoluto

Retificador

Também conhecida como Unidade Linear Retificada (ReLU), Max ou Função de Rampa .

{uma}_{j}^{Eu} = σ (z_{j}^{Eu}) = max (0 0, z_{j}^{Eu})

$a^i_j = \sigma(z^i_j) = \max(0, z^i_j)$

Retificador

Modificações do ReLU

Estas são algumas funções de ativação com as quais eu tenho tocado que parecem ter um desempenho muito bom para o MNIST por razões misteriosas.

{uma}_{j}^{Eu} = σ (z_{j}^{Eu}) = max (0 0, z_{j}^{Eu}) + porque (z_{j}^{Eu})

$a^i_j = \sigma(z^i_j) = \max(0, z^i_j)+\cos(z^i_j)$

Escalado:

{uma}_{j}^{Eu} = σ (z_{j}^{Eu}) = max (0 0, z_{j}^{Eu}) + pecado (z_{j}^{Eu})

$a^i_j = \sigma(z^i_j) = \max(0, z^i_j)+\sin(z^i_j)$

Escalado:

Retificador Suave

Também conhecida como Unidade linear retificada suave, Smooth Max ou Soft plus

{uma}_{j}^{Eu} = σ (z_{j}^{Eu}) = registro (1 + \exp (z_{j}^{Eu}))

$a^i_j = \sigma(z^i_j) = \log\!\big(1+\exp(z^i_j)\big)$

Retificador Suave

Logit

{uma}_{j}^{Eu} = σ (z_{j}^{Eu}) = registro (\frac{z_{j}^{Eu}}{(1 - z_{j}^{Eu})})

$a^i_j = \sigma(z^i_j) = \log\!\bigg(\frac{z^i_j}{(1 − z^i_j)}\bigg)$

Logit

Escalado:

Logit Scaled

Probit

{uma}_{j}^{Eu} = σ (z_{j}^{Eu}) = \sqrt{2} {erf}^{- 1} (2 z_{j}^{Eu} - 1)

$a^i_j = \sigma(z^i_j) = \sqrt{2}\,\text{erf}^{-1}(2z^i_j-1)$ .

Onde é a função de erro . Não pode ser descrito por meio de funções elementares, mas você pode encontrar maneiras de aproximar sua inversão nessa página da Wikipedia e aqui . $\text{erf}$

Alternativamente, pode ser expresso como

{uma}_{j}^{Eu} = σ (z_{j}^{Eu}) = ϕ (z_{j}^{Eu})

$a^i_j = \sigma(z^i_j) = \phi(z^i_j)$ .

Onde é a função de distribuição cumulativa (CDF). Veja aqui meios de aproximar isso. $\phi$

Probit

Escalado:

Probit Scaled

Cosine

Veja Pias de cozinha aleatórias .

{uma}_{j}^{Eu} = σ (z_{j}^{Eu}) = porque (z_{j}^{Eu})

$a^i_j = \sigma(z^i_j) = \cos(z^i_j)$ .

Cosine

Softmax

Também conhecido como Exponencial Normalizado.

{uma}_{j}^{Eu} = \frac{\exp (z_{j}^{Eu})}{\sum_{k} \exp (z_{k}^{Eu})}

$a^i_j = \frac{\exp(z^i_j)}{\sum\limits_k \exp(z^i_k)}$

Este é um pouco estranho, porque a saída de um único neurônio depende dos outros neurônios nessa camada. Também fica difícil calcular, pois pode ser um valor muito alto; nesse caso, provavelmente . Da mesma forma, se for um valor muito baixo, ele ficará abaixo e se tornará . $z^i_j$ $\exp(z^i_j)$ $z^i_j$ $0$

Para combater isso, calcularemos . Isso nos dá: $\log(a^i_j)$

registro ({uma}_{j}^{Eu}) = registro (\frac{\exp (z_{j}^{Eu})}{\sum_{k} \exp (z_{k}^{Eu})})

$\log(a^i_j) = \log\left(\frac{\exp(z^i_j)}{\sum\limits_k \exp(z^i_k)}\right)$

registro ({uma}_{j}^{Eu}) = z_{j}^{Eu} - registro (\sum_{k} \exp (z_{k}^{Eu}))

$\log(a^i_j) = z^i_j - \log(\sum\limits_k \exp(z^i_k))$

Aqui precisamos usar o truque log-sum-exp :

Digamos que estamos computando:

registro (e^{2} + e^{9} + e^{11} + e^{- 7} + e^{- 2} + e^{5})

$\log(e^2 + e^9 + e^{11} + e^{-7} + e^{-2} + e^5)$

Primeiro, ordenaremos nossos exponenciais por magnitude, por conveniência:

registro (e^{11} + e^{9} + e^{5} + e^{2} + e^{- 2} + e^{- 7})

$\log(e^{11} + e^9 + e^5 + e^2 + e^{-2} + e^{-7})$

Então, como é o mais alto, multiplicamos por : $e^{11}$ $\frac{e^{-11}}{e^{-11}}$

registro (\frac{e^{- 11}}{e^{- 11}} (e^{11} + e^{9} + e^{5} + e^{2} + e^{- 2} + e^{- 7}))

$\log(\frac{e^{-11}}{e^{-11}}(e^{11} + e^9 + e^5 + e^2 + e^{-2} + e^{-7}))$

registro (\frac{1}{e^{- 11}} (e^{0 0} + e^{- 2} + e^{- 6} + e^{- 9} + e^{- 13} + e^{- 18}))

$\log(\frac{1}{e^{-11}}(e^{0} + e^{-2} + e^{-6} + e^{-9} + e^{-13} + e^{-18}))$

registro (e^{11} (e^{0 0} + e^{- 2} + e^{- 6} + e^{- 9} + e^{- 13} + e^{- 18}))

$\log(e^{11}(e^{0} + e^{-2} + e^{-6} + e^{-9} + e^{-13} + e^{-18}))$

registro (e^{11}) + registro (e^{0 0} + e^{- 2} + e^{- 6} + e^{- 9} + e^{- 13} + e^{- 18})

$\log(e^{11}) + \log(e^{0} + e^{-2} + e^{-6} + e^{-9} + e^{-13} + e^{-18})$

11 + registro (e^{0 0} + e^{- 2} + e^{- 6} + e^{- 9} + e^{- 13} + e^{- 18})

$11 + \log(e^{0} + e^{-2} + e^{-6} + e^{-9} + e^{-13} + e^{-18})$

Podemos então calcular a expressão à direita e registrar o log. Não há problema em fazer isso porque essa soma é muito pequena em relação a , portanto, qualquer sub-fluxo para 0 não seria significativo o suficiente para fazer diferença de qualquer maneira. O estouro não pode acontecer na expressão à direita, porque temos a garantia de que, após multiplicar por , todos os poderes serão . $\log(e^{11})$ $e^{-11}$ $\leq 0$

Formalmente, chamamos . Então: $m=\max(z^i_1, z^i_2, z^i_3, ...)$

registro (\sum_{k} \exp (z_{k}^{Eu})) = m + registro (\sum_{k} \exp (z_{k}^{Eu} - m))

$\log\!(\sum\limits_k \exp(z^i_k)) = m + \log(\sum\limits_k \exp(z^i_k - m))$

Nossa função softmax passa a ser:

{uma}_{j}^{Eu} = \exp (registro ({uma}_{j}^{Eu})) = \exp (z_{j}^{Eu} - m - registro (\sum_{k} \exp (z_{k}^{Eu} - m)))

$a^i_j = \exp(\log(a^i_j))=\exp\!\left( z^i_j - m - \log(\sum\limits_k \exp(z^i_k - m))\right)$

Também como nota lateral, a derivada da função softmax é:

\frac{d σ (z_{j}^{Eu})}{d z_{j}^{Eu}} = σ^{'} (z_{j}^{Eu}) = σ (z_{j}^{Eu}) (1 - σ (z_{j}^{Eu}))

$\frac{d \sigma(z^i_j)}{d z^i_j}=\sigma^{\prime}(z^i_j)= \sigma(z^i_j)(1 - \sigma(z^i_j))$

Maxout

Este também é um pouco complicado. Essencialmente, a idéia é que dividamos cada neurônio em nossa camada máxima em muitos sub-neurônios, cada um com seus próprios pesos e preconceitos. Em seguida, a entrada de um neurônio vai para cada um dos seus sub-neurônios, e cada sub-neurônio simplesmente gera seus (sem aplicar nenhuma função de ativação). O desse neurônio é então o máximo de todas as saídas de seu sub-neurônio. $z$ $a^i_j$

Formalmente, em um único neurônio, digamos que temos sub-neurônios. Então $n$

{uma}_{j}^{Eu} = max_{k \in [1, n]} s_{j k}^{Eu}

$a^i_j = \max\limits_{k \in [1,n]} s^i_{jk}$

Onde

s_{j k}^{Eu} = {uma}^{Eu - 1} ∙ W_{j k}^{Eu} + b_{j k}^{Eu}

$s^i_{jk} = a^{i-1} \bullet w^i_{jk} + b^i_{jk}$

( é o produto escalar ) $\bullet$

Para nos ajudar a pensar sobre isso, considere a matriz de pesos para a camada de uma rede neural que está usando, digamos, uma função de ativação sigmóide. é uma matriz 2D, em que cada coluna é um vetor para o neurônio contém um peso para cada neurônio na camada anterior . $W^i$ $i^{\text{th}}$ $W^i$ $W^i_j$ $j$ $i-1$

Se tivermos sub-neurônios, precisaremos de uma matriz de pesos 2D para cada neurônio, pois cada sub-neurônio precisará de um vetor que contenha um peso para cada neurônio na camada anterior. Isso significa que é agora uma matriz de peso 3D, onde cada é a matriz de peso 2D para um único neurônio . E então é um vetor para o sub-neurônio no neurônio que contém um peso para cada neurônio na camada anterior . $W^i$ $W^i_j$ $j$ $W^i_{jk}$ $k$ $j$ $i-1$

Da mesma forma, em uma rede neural que novamente usa, digamos, uma função de ativação sigmóide, é um vetor com um viés para cada neurônio na camada . $b^i$ $b^i_j$ $j$ $i$

Para fazer isso com sub-neurônios, precisamos de uma matriz de viés 2D para cada camada , onde é o vetor com viés para cada subneurônio no neurônio. $b^i$ $i$ $b^i_j$ $b^i_{jk}$ $k$ $j^{\text{th}}$

Ter uma matriz de pesos e um vetor de viés para cada neurônio torna as expressões acima muito claras, é simplesmente aplicar os pesos de cada sub-neurônio às saídas de camada , aplicando seus desvios e obtendo o máximo deles. $w^i_j$ $b^i_j$ $w^i_{jk}$ $a^{i-1}$ $i-1$ $b^i_{jk}$

Redes de funções de base radial

As Redes de funções de base radial são uma modificação das redes neurais feedforward, onde, em vez de usar

{uma}_{j}^{Eu} = σ (\sum_{k} (W_{j k}^{Eu} \cdot {uma}_{k}^{Eu - 1}) + b_{j}^{Eu})

$a^i_j=\sigma\bigg(\sum\limits_k (w^i_{jk} \cdot a^{i-1}_k) + b^i_j\bigg)$

temos um peso por nó na camada anterior (como normal) e também um vetor médio e um vetor de desvio padrão para cada nó em a camada anterior. $w^i_{jk}$ $k$ $\mu^i_{jk}$ $\sigma^i_{jk}$

Então chamamos nossa função de ativação para evitar confundi-la com os vetores de desvio padrão . Agora, para calcular , primeiro precisamos calcular um para cada nó na camada anterior. Uma opção é usar a distância euclidiana: $\rho$ $\sigma^i_{jk}$ $a^i_j$ $z^i_{jk}$

z_{j k}^{Eu} = \sqrt{__({uma}^{Eu - 1} - μ_{j k}^{Eu}__} = \sqrt{\sum_{ℓ} ({uma}_{ℓ}^{Eu - 1} - μ_{j k ℓ}^{Eu})^{2}}

$z^i_{jk}=\sqrt{\Vert(a^{i-1}-\mu^i_{jk}\Vert}=\sqrt{\sum\limits_\ell (a^{i-1}_\ell - \mu^i_{jk\ell})^2}$

Onde é o elemento de . Este não usa o . Alternativamente, há a distância de Mahalanobis, que supostamente tem um desempenho melhor: $\mu^i_{jk\ell}$ $\ell^\text{th}$ $\mu^i_{jk}$ $\sigma^i_{jk}$

z_{j k}^{Eu} = \sqrt{({uma}^{Eu - 1} - μ_{j k}^{Eu})^{T} Σ_{j k}^{Eu} ({uma}^{Eu - 1} - μ_{j k}^{Eu})}

$z^i_{jk}=\sqrt{(a^{i-1}-\mu^i_{jk})^T \Sigma^i_{jk} (a^{i-1}-\mu^i_{jk})}$

onde é a matriz de covariância , definida como: $\Sigma^i_{jk}$

Σ_{j k}^{Eu} = diag (σ_{j k}^{Eu})

$\Sigma^i_{jk} = \text{diag}(\sigma^i_{jk})$

Em outras palavras, é a matriz diagonal com como elementos diagonais. Definimos e como vetores de coluna aqui, porque essa é a notação normalmente usada. $\Sigma^i_{jk}$ $\sigma^i_{jk}$ $a^{i-1}$ $\mu^i_{jk}$

Eles estão realmente dizendo que a distância de Mahalanobis é definida como

z_{j k}^{Eu} = \sqrt{\sum_{ℓ} \frac{({uma}_{ℓ}^{Eu - 1} - μ_{j k ℓ}^{Eu})^{2}}{σ_{j k ℓ}^{Eu}}}

$z^i_{jk}=\sqrt{\sum\limits_\ell \frac{(a^{i-1}_{\ell} - \mu^i_{jk\ell})^2}{\sigma^i_{jk\ell}}}$

Onde é o elemento de . Observe que deve sempre ser positivo, mas esse é um requisito típico para o desvio padrão; portanto, isso não é tão surpreendente. $\sigma^i_{jk\ell}$ $\ell^\text{th}$ $\sigma^i_{jk}$ $\sigma^i_{jk\ell}$

Se desejado, a distância de Mahalanobis é suficientemente geral para que a matriz de covariância possa ser definida como outras matrizes. Por exemplo, se a matriz de covariância é a matriz de identidade, nossa distância de Mahalanobis se reduz à distância euclidiana. é bastante comum e é conhecida como distância euclidiana normalizada . $\Sigma^i_{jk}$ $\Sigma^i_{jk} = \text{diag}(\sigma^i_{jk})$

De qualquer forma, uma vez que nossa função de distância tenha sido escolhida, podemos calcular via $a^i_j$

{uma}_{j}^{Eu} = \sum_{k} W_{j k}^{Eu} ρ (z_{j k}^{Eu})

$a^i_j=\sum\limits_k w^i_{jk}\rho(z^i_{jk})$

Nessas redes, eles optam por se multiplicar por pesos após aplicar a função de ativação por motivos.

Isso descreve como criar uma rede com função de base radial de várias camadas; no entanto, geralmente há apenas um desses neurônios e sua saída é a saída da rede. Ele é desenhado como múltiplos neurônios porque cada vetor médio e cada vetor de desvio padrão desse neurônio único é considerado um "neurônio" único e, depois de todas essas saídas, existe outra camada que leva a soma desses valores calculados vezes os pesos, assim como acima. Dividi-lo em duas camadas com um vetor "soma" no final parece estranho para mim, mas é o que eles fazem. $\mu^i_{jk}$ $\sigma^i_{jk}$ $a^i_j$

Veja também aqui .

Função de base radial Funções de ativação de rede

Gaussiano

ρ (z_{j k}^{Eu}) = \exp (- \frac{1}{2} (z_{j k}^{Eu})^{2})

$\rho(z^i_{jk}) = \exp\!\big(-\frac{1}{2} (z^i_{jk})^2\big)$

Gaussiano

Multiquadratic

Escolha algum ponto . Então calculamos a distância de a : $(x, y)$ $(z^i_j, 0)$ $(x, y)$

ρ (z_{j k}^{Eu}) = \sqrt{(z_{j k}^{Eu} - x)^{2} + y^{2}}

$\rho(z^i_{jk}) = \sqrt{(z^i_{jk}-x)^2 + y^2}$

Isto é da Wikipedia . Não é limitado e pode ter qualquer valor positivo, embora eu esteja me perguntando se existe uma maneira de normalizá-lo.

Quando , isso é equivalente a absoluto (com um deslocamento horizontal ). $y=0$ $x$

Multiquadratic

Multiquadratic Inverso

O mesmo que quadrático, exceto invertido:

ρ (z_{j k}^{Eu}) = \frac{1}{\sqrt{(z_{j k}^{Eu} - x)^{2} + y^{2}}}

$\rho(z^i_{jk}) = \frac{1}{\sqrt{(z^i_{jk}-x)^2 + y^2}}$

Multiquadratic Inverso

* Gráficos dos gráficos da intmath usando SVG .

— Phylliida
fonte

Bem-vindo ao CV. +6 isto é fabulosamente informativo. Espero que vejamos mais coisas assim no futuro.

— gung

há também a função linear retificada suave da forma e probit.

\log (1 + \exp (x))

$\log(1+\exp(x))$

— Memming

Ok, acho que adicionei o logit, o probit e o log complementar, no entanto, não tenho um entendimento profundo desses tópicos, por isso posso ter entendido mal a forma escrita. Isso está correto?

— Phylliida

Este seria um artigo interessante com uma boa lista de referências. Por exemplo, arxiv.org/abs/1505.03654 . Sinta-se à vontade para entrar em contato comigo se decidir escrever um artigo e quiser outras referências.

— Hunaphu 3/06

alguém deve atualizar isso com Elu, Leaky ReLU, PReLU e RReLU.

— Viliami 21/04/19

Uma dessas listas, embora não seja muito exaustiva: http://cs231n.github.io/neural-networks-1/

Funções de ativação comumente usadas

Toda função de ativação (ou não linearidade ) pega um único número e executa uma certa operação matemática fixa nela. Existem várias funções de ativação que você pode encontrar na prática:

Esquerda: a não linearidade sigmóide esmaga os números reais para variar entre [0,1] Direita: A não linearidade tanh esmaga os números reais para variar entre [-1,1].
Sigmoide. A não linearidade sigmóide tem a forma matemática e é mostrada na imagem acima à esquerda. Como mencionado na seção anterior, ele pega um número com valor real e o "esmaga" na faixa entre 0 e 1. Em particular, grandes números negativos se tornam 0 e grandes números positivos se tornam 1. A função sigmoide tem sido frequentemente usada historicamente uma vez que tem uma boa interpretação como a taxa de disparo de um neurônio: de não disparar (0) a disparo totalmente saturado em uma frequência máxima assumida (1). Na prática, a não linearidade sigmóide caiu recentemente em desuso e raramente é usada. Ele tem duas desvantagens principais: $\sigma(x) = 1 / (1 + e^{-x})$

Os sigmóides saturam e matam gradientes . Uma propriedade muito indesejável do neurônio sigmóide é que, quando a ativação do neurônio satura na cauda de 0 ou 1, o gradiente nessas regiões é quase zero. Lembre-se de que durante a retropropagação, esse gradiente (local) será multiplicado pelo gradiente da saída desse gate para todo o objetivo. Portanto, se o gradiente local for muito pequeno, ele efetivamente "matará" o gradiente e quase nenhum sinal fluirá através do neurônio para seus pesos e recursivamente para seus dados. Além disso, é preciso ter cuidado extra ao inicializar os pesos dos neurônios sigmóides para evitar a saturação. Por exemplo, se os pesos iniciais forem muito grandes, a maioria dos neurônios ficará saturada e a rede mal aprenderá.

As saídas sigmóides não são centralizadas em zero . Isso é indesejável, uma vez que neurônios em camadas posteriores de processamento em uma rede neural (mais sobre isso em breve) receberiam dados que não são centralizados em zero. Isso tem implicações na dinâmica durante a descida do gradiente, porque se os dados que entram no neurônio são sempre positivos (por exemplo, elementwise em )), então o gradiente nos pesos durante a retropropagação se torna: todos são positivos ou todos negativos (dependendo do gradiente de toda a expressão $x > 0$ $f = w^Tx + b$ $w$ $f$ ) Isso poderia introduzir uma dinâmica indesejável de zigue-zague nas atualizações de gradiente para os pesos. No entanto, observe que, depois que esses gradientes são somados em um lote de dados, a atualização final dos pesos pode ter sinais variáveis, mitigando um pouco esse problema. Portanto, isso é um inconveniente, mas tem consequências menos graves em comparação com o problema de ativação saturada acima.

Tanh. A não linearidade tanh é mostrada na imagem acima à direita. Ele comprime um número com valor real no intervalo [-1, 1]. Como o neurônio sigmóide, suas ativações saturam, mas, diferentemente do neurônio sigmóide, sua produção é centrada em zero. Portanto, na prática, a não linearidade de tanh é sempre preferida à não linearidade sigmóide. Observe também que o neurônio tanh é simplesmente um neurônio sigmóide em escala, em particular o seguinte: . $\tanh(x) = 2 \sigma(2x) -1$

Esquerda: Função de ativação da Unidade Linear Retificada (ReLU), que é zero quando x <0 e, em seguida, linear com a inclinação 1 quando x> 0. Direita: Um gráfico de Krizhevsky et al. (pdf) documento indicando a melhoria de 6x na convergência com a unidade ReLU em comparação com a unidade tanh.
ReLU. A Unidade Linear Retificada se tornou muito popular nos últimos anos. Ele calcula a função . Em outras palavras, a ativação é simplesmente limiar a zero (veja a imagem acima à esquerda). Existem vários prós e contras no uso das ReLUs: $f(x) = \max(0, x)$

(+) Verificou-se que acelera bastante (por exemplo, um fator 6 em Krizhevsky et al. ) A convergência da descida do gradiente estocástico em comparação com as funções sigmoides / tanh. Argumenta-se que isso se deve à sua forma linear e não saturante.

(+) Comparado aos neurônios tanh / sigmóides que envolvem operações caras (exponenciais, etc.), a ReLU pode ser implementada simplesmente limitando uma matriz de ativações a zero.

(-) Infelizmente, as unidades ReLU podem ser frágeis durante o treinamento e podem "morrer". Por exemplo, um grande gradiente que flui através de um neurônio ReLU pode fazer com que os pesos sejam atualizados de forma que o neurônio nunca seja ativado novamente em nenhum ponto de dados novamente. Se isso acontecer, o gradiente que flui através da unidade será para sempre zero a partir desse ponto. Ou seja, as unidades ReLU podem morrer irreversivelmente durante o treinamento, pois podem ser eliminadas do coletor de dados. Por exemplo, você pode achar que até 40% da sua rede pode estar "morta" (por exemplo, neurônios que nunca são ativados em todo o conjunto de dados de treinamento) se a taxa de aprendizado estiver muito alta. Com uma configuração adequada da taxa de aprendizado, isso é menos frequente.

ReLU com vazamento. ReLUs com vazamento são uma tentativa de corrigir o problema "ReLU que está morrendo". Em vez de a função ser zero quando x <0, uma ReLU com vazamento terá uma pequena inclinação negativa (de 0,01 ou mais). Ou seja, a função calcula que é uma constante pequena. Algumas pessoas relatam sucesso com essa forma de função de ativação, mas os resultados nem sempre são consistentes. A inclinação na região negativa também pode ser transformada em um parâmetro de cada neurônio, como visto nos neurônios PReLU, introduzidos em Delving Deep into Rectifiers , por Kaiming He et al., 2015. No entanto, atualmente, a consistência do benefício entre as tarefas é atualmente claro. $f(x) = \mathbb{1}(x < 0) (\alpha x) + \mathbb{1}(x>=0) (x)$ $\alpha$

Maxout . Outros tipos de unidades foram propostos que não possuem a forma funcional onde uma não linearidade é aplicada no produto escalar entre os pesos e os dados. Uma escolha relativamente popular é o neurônio Maxout (introduzido recentemente por Goodfellow et al. ) Que generaliza o ReLU e sua versão com vazamento. O neurônio Maxout calcula a função . Observe que ReLU e Leaky ReLU são um caso especial desse formulário (por exemplo, para ReLU, temos $f(w^Tx + b)$ $\max(w_1^Tx+b_1, w_2^Tx + b_2)$ $w_1, b_1 = 0$ ) O neurônio Maxout, portanto, desfruta de todos os benefícios de uma unidade ReLU (regime linear de operação, sem saturação) e não tem suas desvantagens (ReLU moribundo). No entanto, diferentemente dos neurônios da ReLU, ele dobra o número de parâmetros para cada neurônio, levando a um número total alto de parâmetros.

Isso conclui nossa discussão sobre os tipos mais comuns de neurônios e suas funções de ativação. Como último comentário, é muito raro misturar e combinar diferentes tipos de neurônios na mesma rede, mesmo que não haja nenhum problema fundamental em fazê-lo.

TLDR : " Que tipo de neurônio devo usar? " Use a não linearidade da ReLU, tenha cuidado com suas taxas de aprendizado e, possivelmente, monitore a fração de unidades "mortas" em uma rede. Se isso lhe interessar, experimente o Leaky ReLU ou o Maxout. Nunca use sigmoide. Tente tanh, mas espere que funcione pior que ReLU / Maxout.

Licença:

A Licença MIT (MIT)

Copyright (c) 2015 Andrej Karpathy

A permissão é concedida, gratuitamente, a qualquer pessoa que obtenha uma cópia deste software e dos arquivos de documentação associados (o "Software"), para negociar no Software sem restrições, incluindo, sem limitação, os direitos de uso, cópia, modificação, fusão , publicar, distribuir, sublicenciar e / ou vender cópias do Software e permitir que as pessoas a quem o Software é fornecido o façam, sob as seguintes condições:

O aviso de direitos autorais acima e este aviso de permissão devem ser incluídos em todas as cópias ou partes substanciais do Software.

O SOFTWARE É FORNECIDO "TAL COMO ESTÁ", SEM GARANTIA DE QUALQUER TIPO, EXPRESSA OU IMPLÍCITA, INCLUINDO MAS NÃO SE LIMITANDO A GARANTIAS DE COMERCIALIZAÇÃO, ADEQUAÇÃO A UMA FINALIDADE ESPECÍFICA E NÃO INFRACÇÃO. EM NENHUM CASO OS AUTORES OU TITULARES DE DIREITOS AUTORAIS SERÃO RESPONSÁVEIS POR QUALQUER REIVINDICAÇÃO, DANOS OU OUTRA RESPONSABILIDADE, SEJA EM AÇÃO DE CONTRATO, TORT OU OUTRA FORMA, proveniente, fora ou em conexão com o software ou o uso ou outros acordos no PROGRAMAS.*

Outros links:

função de ativação tanh vs função de ativação sigmóide

— Franck Dernoncourt
fonte

Eu não acho que exista uma lista com prós e contras. As funções de ativação são altamente dependentes da aplicação e também dependem da arquitetura da sua rede neural ( aqui, por exemplo, você vê a aplicação de duas funções do softmax, semelhantes à sigmóide).

Você pode encontrar alguns estudos sobre o comportamento geral das funções, mas acho que você nunca terá uma lista definida e definitiva (o que você pergunta ...).

Ainda sou estudante, por isso aponto o que sei até agora:

aqui você encontra algumas reflexões sobre os comportamentos de tanh e sigmoides com retropropagação. Tanh é mais genérico, mas sigmóide ... (sempre haverá um "mas")
Nas redes neurais do retificador escasso profundo de Glorot Xavier et al., Eles afirmam que as unidades retificadoras são mais biologicamente plausíveis e têm desempenho melhor que as outras (sigmóide / tanh)

— Marcodena
fonte

Essa é a resposta correta. Pode-se produzir uma lista, mas os prós e os contras dependem completamente dos dados. De fato, aprender funções de ativação é muito mais razoável em teoria. A razão pela qual não há muita pesquisa é o sigmoide "simplesmente funciona". No final, o seu único ganho é a velocidade de convergência que é muitas vezes sem importância

— runDOSrun

Apenas por uma questão de completude na grande resposta de Danielle, existem outros paradigmas, nos quais alguém aleatoriamente gira a roda sobre os pesos e / ou o tipo de ativações: máquinas de estado líquido , máquinas de aprendizado extremo e redes de estado de eco .

Uma maneira de pensar sobre essas arquiteturas: o reservatório é uma espécie de núcleo, como nos SVMs, ou uma grande camada oculta em um FFNN simples, onde os dados são projetados em algum hiperespaço. Não há aprendizado real, o reservatório é gerado novamente até que uma solução satisfatória seja alcançada.

Veja também esta boa resposta .

— shuriken x blue
fonte

Um artigo revisando funções de ativação recentes pode ser encontrado em

" Funções de ativação: comparação de tendências na prática e pesquisa para aprendizagem profunda ", de Chigozie Enyinna Nwankpa, Winifred Ijomah, Anthony Gachagan e Stephen Marshall

As redes neurais profundas foram usadas com sucesso em diversos domínios emergentes para resolver problemas complexos do mundo real, com arquiteturas de aprendizado mais profundo (DL), sendo desenvolvidas até o momento. Para obter essas performances de ponta, as arquiteturas de DL usam funções de ativação (AFs), para executar cálculos diversos entre as camadas ocultas e as camadas de saída de qualquer arquitetura DL. Este artigo apresenta uma pesquisa sobre os AFs existentes usados em aplicativos de aprendizado profundo e destaca as tendências recentes no uso das funções de ativação para aplicativos de aprendizado profundo. A novidade deste artigo é que ele compila a maioria dos AFs usados no DL e descreve as tendências atuais nas aplicações e no uso dessas funções em implantações práticas de aprendizado profundo em relação aos resultados da pesquisa de ponta. Essa compilação ajudará a tomar decisões efetivas na escolha da função de ativação mais adequada e apropriada para qualquer aplicativo, pronta para implantação. Este artigo é oportuno porque a maioria dos trabalhos de pesquisa em FA destaca trabalhos e resultados semelhantes, enquanto este será o primeiro a compilar as tendências dos aplicativos de AF na prática contra os resultados de pesquisa da literatura, encontrados em pesquisas de aprendizado profundo até o momento.

— Sycorax
fonte