Eu sou novo no aprendizado profundo, portanto essa pode ser uma pergunta trivial. Mas estou me perguntando por que o aprendizado profundo (ou rede neural) não funciona muito bem em pequenos dados rotulados. Quaisquer que sejam os trabalhos de pesquisa que eu tenha lido, seus conjuntos de dados são enormes. Intuitivamente, isso não é surpreendente, porque nosso cérebro leva muito tempo para se treinar. Mas existe uma prova matemática ou uma razão pela qual a rede neural não funciona bem nesses casos?