Quais componentes modificáveis de um sistema de aprendizado são responsáveis por seu sucesso ou fracasso? Quais mudanças para eles melhoram o desempenho? Isso foi chamado de problema fundamental de atribuição de crédito (Minsky, 1963). Existem métodos gerais de atribuição de crédito para solucionadores de problemas universais que são ótimos no tempo em vários sentidos teóricos (Seção 6.8). A presente pesquisa, no entanto, se concentrará no subcampo mais estreito, mas agora comercialmente importante, do Deep Learning (DL) em Redes Neurais Artificiais (NNs).
Uma rede neural padrão (NN) consiste em muitos processadores simples e conectados, chamados neurônios, cada um produzindo uma sequência de ativações com valor real. Os neurônios de entrada são ativados através de sensores que percebem o ambiente, outros neurônios são ativados através de conexões ponderadas de neurônios previamente ativos (detalhes na Seção 2). Alguns neurônios podem influenciar o ambiente desencadeando ações. A atribuição de aprendizado ou crédito consiste em encontrar pesos que façam o NN exibir o comportamento desejado, como dirigir um carro. Dependendo do problema e de como os neurônios estão conectados, esse comportamento pode exigir longas cadeias causais de estágios computacionais (Seção 3), onde cada estágio transforma (geralmente de maneira não linear) a ativação agregada da rede. O Deep Learning trata da atribuição precisa de crédito em muitos desses estágios.
Modelos rasos do tipo NN com poucos estágios existem há muitas décadas, senão séculos (Seção 5.1). Modelos com várias camadas não-lineares sucessivas de neurônios datam pelo menos dos anos 1960 (Seção 5.3) e 1970 (Seção 5.5). Um método eficiente de descida em gradiente para o aprendizado supervisionado (SL) baseado em professor em redes discretas e diferenciáveis de profundidade arbitrária denominadas retropropagação (PA) foi desenvolvido nas décadas de 1960 e 1970 e aplicado aos RNs em 1981 (seção 5.5). O treinamento baseado em BP de NNs profundos com muitas camadas, no entanto, foi considerado difícil na prática no final da década de 1980 (Seção 5.6), e havia se tornado um assunto explícito de pesquisa no início da década de 1990 (Seção 5.9). O DL tornou-se praticamente viável, em certa medida, com a ajuda da Aprendizagem Não Supervisionada (UL), por exemplo, Sec. 5.10 (1991), Sec. 5.15 (2006). As décadas de 1990 e 2000 também tiveram muitas melhorias no DL puramente supervisionado (Seção 5). No novo milênio, as NNs profundas finalmente atraíram muita atenção, principalmente superando os métodos alternativos de aprendizado de máquina, como as máquinas de kernel (Vapnik, 1995; Scholkopf et al., 1998) em inúmeras aplicações importantes. De fato, desde 2009, as NNs profundas supervisionadas venceram muitas competições oficiais internacionais de reconhecimento de padrões (por exemplo, Sec. 5.17, 5.19, 5.21, 5.22), alcançando os primeiros resultados de reconhecimento de padrões visuais sobre-humanos em domínios limitados (Sec. 5.19, 2011). As NNs profundas também se tornaram relevantes para o campo mais geral da Aprendizagem por Reforço (RL), onde não há professor supervisor (Seção 6). principalmente superando métodos alternativos de aprendizado de máquina, como máquinas de kernel (Vapnik, 1995; Scholkopf et al., 1998) em inúmeras aplicações importantes. De fato, desde 2009, as NNs profundas supervisionadas venceram muitas competições oficiais internacionais de reconhecimento de padrões (por exemplo, Sec. 5.17, 5.19, 5.21, 5.22), alcançando os primeiros resultados de reconhecimento de padrões visuais sobre-humanos em domínios limitados (Sec. 5.19, 2011). As NNs profundas também se tornaram relevantes para o campo mais geral da Aprendizagem por Reforço (RL), onde não há professor supervisor (Seção 6). principalmente superando métodos alternativos de aprendizado de máquina, como máquinas de kernel (Vapnik, 1995; Scholkopf et al., 1998) em inúmeras aplicações importantes. De fato, desde 2009, as NNs profundas supervisionadas venceram muitas competições oficiais internacionais de reconhecimento de padrões (por exemplo, Sec. 5.17, 5.19, 5.21, 5.22), alcançando os primeiros resultados de reconhecimento de padrões visuais sobre-humanos em domínios limitados (Sec. 5.19, 2011). As NNs profundas também se tornaram relevantes para o campo mais geral da Aprendizagem por Reforço (RL), onde não há professor supervisor (Seção 6). alcançar o primeiro reconhecimento de padrões visuais sobre-humanos resulta em domínios limitados (Seção 5.19, 2011). As NNs profundas também se tornaram relevantes para o campo mais geral da Aprendizagem por Reforço (RL), onde não há professor supervisor (Seção 6). alcançar o primeiro reconhecimento de padrões visuais sobre-humanos resulta em domínios limitados (Seção 5.19, 2011). As NNs profundas também se tornaram relevantes para o campo mais geral da Aprendizagem por Reforço (RL), onde não há professor supervisor (Seção 6).
Por outro lado, não tenho certeza de que seja necessariamente lucrativo tentar construir uma taxonomia de buckets mutuamente exclusivos para estratégias de aprendizado de máquina. Penso que podemos dizer que existem perspectivas a partir das quais os modelos podem ser vistos como redes neurais. Não acho que essa perspectiva seja necessariamente a melhor ou útil em todos os contextos. Por exemplo, ainda estou planejando me referir a florestas aleatórias e árvores com aumento de gradiente como "conjuntos de árvores" em vez de abstrair suas distinções e chamá-las de "árvores de redes neurais". Além disso, Schmidhuber distingue os NNs das máquinas do kernel - embora as máquinas do kernel tenham algumas conexões com os NNs - quando ele escreve "No novo milênio, os NNs profundos finalmente atraíram uma atenção ampla, principalmente superando métodos alternativos de aprendizado de máquina, como máquinas de kernel ... em inúmeras aplicações importantes. "