Eu aviso contra a expectativa de forte semelhança entre redes neurais biológicas e artificiais. Eu acho que o nome "redes neurais" é um pouco perigoso, porque leva as pessoas a esperar que os processos neurológicos e o aprendizado de máquina sejam os mesmos. As diferenças entre redes neurais biológicas e artificiais superam as semelhanças.
Como um exemplo de como isso pode dar errado, você também pode virar o raciocínio na postagem original. Você pode treinar uma rede neural para aprender a reconhecer carros em uma tarde, desde que você tenha um computador razoavelmente rápido e uma certa quantidade de dados de treinamento. Você pode fazer disso uma tarefa binária (carro / não carro) ou uma tarefa multi-classe (carro / bonde / bicicleta / avião / barco) e ainda assim ter confiança em um alto nível de sucesso.
Por outro lado, eu não esperaria que uma criança pudesse escolher um carro no dia - ou até na semana - depois de nascer, mesmo depois de ter visto "tantos exemplos de treinamento". Obviamente, algo é diferente entre uma criança de dois anos e uma criança que explica a diferença na capacidade de aprender, enquanto uma rede neural de classificação de imagem de baunilha é perfeitamente capaz de captar a classificação de objetos imediatamente após o "nascimento". Penso que existem duas diferenças importantes: (1) os volumes relativos de dados de treinamento disponíveis e (2) um mecanismo de auto-ensino que se desenvolve ao longo do tempo por causa de dados de treinamento abundantes.
A postagem original expõe duas perguntas. O título e o corpo da pergunta perguntam por que as redes neurais precisam de "tantos exemplos". Em relação à experiência de uma criança, as redes neurais treinadas usando benchmarks comuns de imagem têm relativamente poucos dados.
Vou reformular a pergunta no título para
"Como o treinamento de uma rede neural para um benchmark de imagem comum se compara e contrasta com a experiência de aprendizagem de uma criança?"
Para fins de comparação, considerarei os dados do CIFAR-10, porque é um benchmark de imagem comum. A parte rotulada é composta por 10 classes de imagens com 6.000 imagens por classe. Cada imagem tem 32 x 32 pixels. Se você de alguma forma empilhou as imagens rotuladas do CIFAR-10 e fez um vídeo padrão de 48 fps, você teria cerca de 20 minutos de filmagem.
Uma criança de 2 anos que observa o mundo por 12 horas diárias tem aproximadamente 263000 minutos (mais de 4000 horas) de observações diretas do mundo, incluindo feedback de adultos (rótulos). (Estes são apenas números aproximados - não sei quantos minutos uma criança comum de dois anos passou observando o mundo.) Além disso, a criança terá exposição a muitos objetos além das 10 classes que compõem o CIFAR- 10)
Portanto, há algumas coisas em jogo. Uma é que a criança tem exposição a mais dados em geral e a uma fonte de dados mais diversificada do que o modelo CIFAR-10. A diversidade de dados e o volume de dados são bem reconhecidos como pré-requisitos para modelos robustos em geral. Sob esse prisma, não parece surpreendente que uma rede neural seja pior nessa tarefa do que a criança, porque uma rede neural treinada no CIFAR-10 sofre de fome positiva por dados de treinamento em comparação com a criança de dois anos. A resolução da imagem disponível para uma criança é melhor que as imagens CIFAR-10 de 32x32, para que a criança possa aprender informações sobre os pequenos detalhes dos objetos.
A comparação do CIFAR-10 a dois anos não é perfeita porque o modelo CIFAR-10 provavelmente será treinado com várias passagens pelas mesmas imagens estáticas, enquanto a criança verá, usando a visão binocular, como os objetos são organizados em três tridimensional enquanto se move e com diferentes condições de iluminação e perspectivas sobre os mesmos objetos.
A anedota sobre o filho de OP implica uma segunda pergunta,
"Como as redes neurais podem se tornar autodidatas?"
Uma criança é dotada de algum talento para o autodidata, para que novas categorias de objetos possam ser adicionadas ao longo do tempo sem ter que começar do zero.
A observação do OP sobre transferência-aprendizado nomeia um tipo de adaptação de modelo no contexto de aprendizado de máquina.
Nos comentários, outros usuários apontaram que o aprendizado de uma ou poucas tentativas * é outra área de pesquisa de aprendizado de máquina.
Além disso, o aprendizado por reforço aborda os modelos de autoaprendizagem de uma perspectiva diferente, permitindo essencialmente que os robôs realizem tentativas de tentativa e erro para encontrar estratégias ideais para resolver problemas específicos (por exemplo, jogar xadrez).
Provavelmente, é verdade que todos esses três paradigmas de aprendizado de máquina são relevantes para melhorar a forma como as máquinas se adaptam às novas tarefas de visão computacional. A rápida adaptação dos modelos de aprendizado de máquina a novas tarefas é uma área ativa de pesquisa. No entanto, como os objetivos práticos desses projetos (identificar novas instâncias de malware, reconhecer impostores nas fotos de passaportes, indexar a Internet) e os critérios de sucesso diferem dos objetivos de uma criança que está aprendendo sobre o mundo e do fato de que isso é feito em Se um computador usando matemática e o outro é feito em material orgânico usando química, as comparações diretas entre os dois permanecerão carregadas.
Como um aparte, seria interessante estudar como mudar o problema do CIFAR-10 e treinar uma rede neural para reconhecer 6000 objetos de 10 exemplos de cada um. Mas mesmo isso não seria uma comparação justa com crianças de dois anos, porque ainda haveria uma grande discrepância no volume total, diversidade e resolução dos dados de treinamento.
* No momento, não temos tags para o aprendizado de uma só tentativa ou a de poucas sessões.