Li em outro lugar que a escolha da função de ativação da camada oculta em um NN deve se basear na necessidade de alguém , ou seja, se você precisar de valores no intervalo de -1 a 1, use tanh e sigmóide no intervalo de 0 a 1.
Minha pergunta é como alguém sabe qual é a sua necessidade ? É baseado no intervalo da camada de entrada, por exemplo, usa a função que pode abranger toda a gama de valores da camada de entrada ou reflete de alguma forma a distribuição da camada de entrada (função Gaussiana)? Ou a necessidade do problema / domínio é específica e a experiência / julgamento de alguém é necessária para fazer essa escolha? Ou é simplesmente "use o que dá o melhor erro de treinamento mínimo validado cruzadamente?"
1 + (1 / exp(-sum))
. Tornando a necessidade muito difícil de entender sem experimentar as duas em cada conjunto de dados. A necessidade, como você a descreve aqui, está ligada à relação real que está sendo aprendida, ou seja, um conjunto de dados binários aprenderá mais rapidamente ou de maneira alguma dadas ativações diferentes.