Eu li que a maioria dos problemas pode ser resolvida com 1-2 camadas ocultas. Como você sabe que precisa de mais de 2? Para que tipo de problemas você precisaria deles (me dê um exemplo)?
Duas funções de ativação comuns usadas no aprendizado profundo são a função tangente hiperbólica e a função de ativação sigmóide. Entendo que a tangente hiperbólica é apenas um redimensionamento e tradução da função sigmóide: tanh( z) = 2 σ( z) - 1tanh(z)=2σ(z)-1 1\tanh(z) = 2\sigma(z) - 1. Existe uma diferença …