A fórmula de dimensão Vapnik – Chervonenkis (VC) para redes neurais varia de a , com O ( E 2 V 2 ) no pior caso, onde E é o número de arestas e V é o número de nós. O número de amostras de treinamento necessárias para ter uma forte garantia de generalização é linear com a dimensão VC.
Isso significa que, para uma rede com bilhões de arestas, como no caso de modelos bem-sucedidos de aprendizado profundo, o conjunto de dados de treinamento precisa de bilhões de amostras de treinamento, na melhor das hipóteses, a quadrilhões, na pior das hipóteses. Atualmente, os maiores conjuntos de treinamento têm cerca de cem bilhões de amostras. Como não há dados de treinamento suficientes, é improvável que os modelos de aprendizado profundo estejam generalizando. Em vez disso, eles estão ajustando demais os dados de treinamento. Isso significa que os modelos não terão bom desempenho em dados diferentes dos dados de treinamento, que é uma propriedade indesejável para aprendizado de máquina.
Dada a incapacidade do aprendizado profundo de generalizar, de acordo com a análise dimensional do VC, por que os resultados do aprendizado profundo são tão sensacionalistas? Apenas ter uma alta precisão em alguns conjuntos de dados não significa muito em si. Existe algo de especial nas arquiteturas de aprendizado profundo que reduz significativamente a dimensão VC?
Se você não acha que a análise da dimensão VC é relevante, forneça evidências / explicações de que o aprendizado profundo está generalizando e não é super adequado. Ou seja, tem boa recordação e precisão, ou apenas boa recordação? É fácil obter um recall de 100%, assim como 100% de precisão. Aproximar os 100% é muito difícil.
Como exemplo contrário, aqui estão as evidências de que o aprendizado profundo é super adequado. Um modelo com excesso de ajuste é fácil de enganar, pois incorpora ruído determinístico / estocástico. Veja a imagem a seguir para um exemplo de sobreajuste.
Além disso, consulte respostas de classificação mais baixa a esta pergunta para entender os problemas com um modelo de excesso de ajuste, apesar da boa precisão nos dados de teste.
Alguns responderam que a regularização resolve o problema de uma grande dimensão de VC. Veja esta pergunta para uma discussão mais aprofundada.