Eu sou novo na rede neural e estou tentando entender matematicamente o que torna as redes neurais tão boas em problemas de classificação.
Tomando o exemplo de uma pequena rede neural (por exemplo, uma com 2 entradas, 2 nós em uma camada oculta e 2 nós para a saída), tudo o que você tem é uma função complexa na saída que é principalmente sigmóide em uma combinação linear do sigmóide.
Então, como isso os torna bons na previsão? A função final leva a algum tipo de ajuste de curva?