Pergunta muito boa, pois ainda não existe uma resposta exata para essa pergunta. Este é um campo ativo de pesquisa.
Por fim, a arquitetura da sua rede está relacionada à dimensionalidade dos seus dados. Como as redes neurais são aproximadores universais, desde que sua rede seja grande o suficiente, ela poderá ajustar seus dados.
A única maneira de realmente saber qual arquitetura funciona melhor é tentar todas elas e escolher a melhor. Mas é claro que, com redes neurais, é bastante difícil, pois cada modelo leva algum tempo para ser treinado. O que algumas pessoas fazem é primeiro treinar um modelo "muito grande" de propósito e depois podá-lo removendo pesos que não contribuem muito para a rede.
E se minha rede for "muito grande"
Se sua rede for muito grande, ela poderá se super-ajustar ou se esforçar para convergir. Intuitivamente, o que acontece é que sua rede está tentando explicar seus dados de uma maneira mais complicada do que deveria. É como tentar responder a uma pergunta que poderia ser respondida com uma frase com um ensaio de 10 páginas. Pode ser difícil estruturar uma resposta tão longa e pode haver muitos fatos desnecessários. ( Consulte esta pergunta )
E se minha rede for "muito pequena"
Por outro lado, se sua rede for muito pequena, ela não será adequada para seus dados. Seria como responder com uma frase quando você deveria ter escrito um ensaio de 10 páginas. Tão boa quanto sua resposta, você estará perdendo alguns dos fatos relevantes.
Estimando o tamanho da rede
Se você conhece a dimensionalidade dos seus dados, pode saber se sua rede é grande o suficiente. Para estimar a dimensionalidade dos seus dados, você pode tentar calcular sua classificação. Essa é uma ideia central de como as pessoas estão tentando estimar o tamanho das redes.
No entanto, não é tão simples. De fato, se sua rede precisa ser de 64 dimensões, você cria uma única camada oculta de tamanho 64 ou duas camadas de tamanho 8? Aqui, vou lhe dar alguma intuição sobre o que aconteceria em ambos os casos.
Indo mais fundo
Ir fundo significa adicionar mais camadas ocultas. O que faz é permitir que a rede calcule recursos mais complexos. Em Redes Neurais Convolucionais, por exemplo, foi mostrado frequentemente que as primeiras camadas representam recursos de "baixo nível", como arestas, e as últimas camadas representam recursos de "alto nível", como faces, partes do corpo etc.
Normalmente, você precisa se aprofundar se seus dados estiverem muito desestruturados (como uma imagem) e precisar ser processado um pouco antes que informações úteis possam ser extraídas.
Indo mais longe
Ir mais fundo significa criar recursos mais complexos, e ir "mais amplo" significa simplesmente criar mais desses recursos. Pode ser que o seu problema possa ser explicado por recursos muito simples, mas é preciso que haja muitos deles. Geralmente, as camadas estão se tornando mais estreitas no final da rede pelo simples motivo de que recursos complexos carregam mais informações do que os simples e, portanto, você não precisa de tantas.