Uma questão-chave que permanece na teoria do aprendizado profundo é por que modelos tão grandes (com muito mais parâmetros que pontos de dados) não se ajustam demais aos conjuntos de dados que usamos.
A teoria clássica baseada em medidas de complexidade não explica o comportamento de redes neurais práticas. Por exemplo, estimativas da dimensão VC fornecem limites de generalização vazios. Até onde eu sei, os limites mais estreitos (superior e inferior) na dimensão VC são dados em [1] e estão na ordem do número de pesos na rede. Claramente, essa complexidade do pior caso não pode explicar como, por exemplo, uma grande redefinição generalizada no CIFAR ou MNIST.
Recentemente, houve outras tentativas de garantir a generalização das redes neurais, por exemplo, em relação ao núcleo da tangente neural ou por várias medidas normativas sobre os pesos. Respectivamente, verificou-se que eles não se aplicam a redes de tamanho praticamente e têm outras propriedades insatisfatórias [2].
Há algum trabalho na estrutura do PAC Bayes para limites não vazios, por exemplo [3]. Essas configurações, no entanto, exigem algum conhecimento da rede treinada e, portanto, têm um sabor diferente da análise clássica do PAC.
Alguns outros aspectos:
otimização: como podemos obter soluções 'boas' da descida do gradiente em um problema não convexo? (Existem algumas respostas para isso na literatura recente)
interpretabilidade: Podemos explicar em um nível intuitivo o que a rede está 'pensando'? (Não é a minha área)
referências (incompletas):