Atualmente, estou me preparando para um exame em redes neurais. Em vários protocolos de exames anteriores, li que as funções de ativação dos neurônios (nos perceptrons multicamadas) devem ser monotônicas.
Entendo que as funções de ativação devem ser diferenciáveis, ter uma derivada que não é 0 na maioria dos pontos e ser não linear. Não entendo por que ser monotônico é importante / útil.
Conheço as seguintes funções de ativação e são monotônicas:
- ReLU
- Sigmoid
- Tanh
- Softmax: Não sei se a definição de monotonicidade é aplicável às funções com
- Softplus
- (Identidade)
No entanto, ainda não vejo nenhuma razão para, por exemplo, .
Por que as funções de ativação precisam ser monotônicas?
(Pergunta do lado relacionado: existe algum motivo pelo qual a função logaritmo / exponencial não é usada como uma função de ativação?)