A função de ativação deve ser monotônica nas redes neurais?

Muitas funções de ativação em redes neurais (sigmóide, tanh, softmax) são monotônicas, contínuas e diferenciáveis (exceto algumas podem ser alguns pontos em que a derivada não existe).

Entendo o motivo da continuidade e diferenciabilidade, mas realmente não consigo entender o motivo da monotonidade.

machine-learning neural-networks

— Salvador Dalí
fonte

Durante a fase de treinamento, a retropropagação informa a cada neurônio quanto deve influenciar cada neurônio na próxima camada. Se a função de ativação não é monotônica, o aumento do peso do neurônio pode causar menos influência, o oposto do pretendido. O resultado seria um comportamento de escolha durante o treinamento, com pouca probabilidade de a rede convergir para um estado que produza um classificador preciso.

— Kyle Jones
fonte

Apenas para esclarecer: a descida de gradiente encontra um mínimo local, mesmo com as funções de ativação monotônica. Pode levar apenas mais tempo.

— Martin Thoma