Eu não acho que haja uma resposta definitiva para suas perguntas. Mas acho que a sabedoria convencional é a seguinte:
Basicamente, à medida que o espaço de hipóteses de um algoritmo de aprendizado aumenta, o algoritmo pode aprender estruturas cada vez mais ricas. Mas, ao mesmo tempo, o algoritmo se torna mais propenso a sobreajuste e seu erro de generalização provavelmente aumenta.
Portanto, para qualquer conjunto de dados, é aconselhável trabalhar com o modelo mínimo que tenha capacidade suficiente para aprender a estrutura real dos dados. Mas esse é um conselho bastante prático, já que geralmente a "estrutura real dos dados" é desconhecida e, muitas vezes, até as capacidades dos modelos candidatos são apenas vagamente entendidas.
Quando se trata de redes neurais, o tamanho do espaço da hipótese é controlado pelo número de parâmetros. E parece que, para um número fixo de parâmetros (ou uma ordem fixa de magnitude), aprofundar permite aos modelos capturar estruturas mais ricas (por exemplo, este artigo ).
Isso pode explicar parcialmente o sucesso de modelos mais profundos com menos parâmetros: o VGGNet (de 2014) possui 16 camadas com ~ 140M parâmetros, enquanto o ResNet (de 2015) o superou com 152 camadas, mas apenas ~ 2M
(por outro lado, modelos menores podem ser computacionalmente mais fáceis de treinar - mas eu não acho que isso seja um fator importante por si só - já que a profundidade realmente complica o treinamento)
Observe que essa tendência (mais profundidade, menos parâmetros) está presente principalmente em tarefas relacionadas à visão e redes convolucionais, e isso exige uma explicação específica do domínio. Então, aqui está outra perspectiva:
Cada "neurônio" em uma camada convolucional possui um "campo receptivo", que é o tamanho e a forma das entradas que afetam cada saída. Intuitivamente, cada kernel captura algum tipo de relação entre entradas próximas. E pequenos núcleos (comuns e preferíveis) têm um pequeno campo receptivo; portanto, eles podem fornecer informações apenas sobre as relações locais.
Mas à medida que você avança, o campo receptivo de cada neurônio em relação a uma camada anterior se torna maior. Portanto, camadas profundas podem fornecer recursos com significado semântico global e detalhes abstratos (relações de relações ... de relações de objetos), enquanto usam apenas pequenos núcleos (que regularizam as relações que a rede aprende e ajuda a convergir e generalizar).
Portanto, a utilidade de redes convolucionais profundas em visão computacional pode ser parcialmente explicada pela estrutura espacial de imagens e vídeos. É possível que o tempo diga que, para diferentes tipos de problemas, ou para arquiteturas não convolucionais, a profundidade realmente não funciona bem.