Redes neurais: Posso usar sigmoides e tanh como funções de ativação?

Em uma arquitetura de rede neural, posso usar a função sigmóide em algumas camadas e a função tanh em outras? É uma boa escolha?

neural-network

— Voxis
fonte

Parece que algumas pessoas realmente mesclam camadas de cada tipo: github.com/usernaamee/keras-wavenet/blob/master/… .

— Ian Fiske

Sim você pode. Não há regras rígidas contra ter funções de ativação diferentes em qualquer camada, e a combinação desses dois tipos não deve apresentar dificuldades numéricas.

De fato, pode ser uma boa opção ter tanh em camadas ocultas e sigmóide na última camada, se seu objetivo é prever a associação de uma única classe ou probabilidades de classes múltiplas não exclusivas. A saída sigmóide se presta bem a prever uma probabilidade independente (usando, por exemplo, uma função objetiva de perda de log (também conhecida como entropia cruzada)).

Se é melhor ou não o uso do sigmoide em todas as camadas, dependerá de outros recursos da sua rede, dos dados e do problema que você está tentando resolver. Geralmente, a melhor maneira de descobrir qual é o melhor - pelo menos em termos de precisão - é experimentar algumas variações e ver quais são as melhores pontuações em um conjunto de dados de validação cruzada. Na minha experiência, geralmente há uma pequena diferença entre o uso de tanh ou sigmóide nas camadas ocultas.

— Neil Slater
fonte