Posso estar atrasado para a festa, mas parece que há algumas coisas que precisam ser esclarecidas aqui.
g(x)∂C∂zCz
C(y,g(z))=12(y−g(z))2g(x)=x
∂C(y,g(z))∂z=∂C(y,g(z))∂g(z)⋅∂g(z)∂z=∂∂g(z)(12(y−g(z))2)⋅∂∂z(z)=−(y−g(z))⋅1=g(z)−y
∂C∂z
∂C∂z
Segundo, gostaria de acrescentar que existem muitas funções de ativação que podem ser usadas para as camadas ocultas. Os sigmóides (como a função logística e a tangente hiperbólica) provaram funcionar bem, mas conforme indicado por Jatin , eles sofrem gradientes de fuga quando suas redes se tornam muito profundas. Nesse caso, as ReLUs se tornaram populares. O que eu gostaria de enfatizar é que há muito mais funções de ativação disponíveis e diferentes pesquisadores continuam procurando novas (por exemplo, Unidades Lineares Exponenciais (ELU), Unidades Lineares de Erro Gaussiano (GELUs), ...) com diferentes / melhores propriedades
Para concluir: Ao procurar as melhores funções de ativação, seja criativo. Experimente coisas diferentes e veja quais combinações levam ao melhor desempenho.
Adendo: Para mais pares de funções de perda e ativações, você provavelmente deseja procurar funções de link (canônicas)