Muitos modelos de aprendizado profundo aprendem seus próprios recursos a partir dos dados brutos de entrada durante o treinamento (por exemplo, Redes Neurais Convolucionais 2D para imagens). Portanto, em muitos casos, você nem precisa se preocupar em passar variáveis explicitamente para o seu modelo. Em alguns outros casos, você ainda precisa de recursos, mas apenas recursos principais (por exemplo, palavras na PNL). Esses recursos são representados como vetores em um espaço de incorporação que captura semelhanças (por exemplo, que 'presidente' é próximo a 'Obama'). O espaço de incorporação é proveniente de pré-treinamento não supervisionado (word2vec, luva) ou é inicializado aleatoriamente, e os vetores são ajustados durante o treinamento via retropropagação. A arquitetura da rede é responsável por aprender as combinações de recursos, como a diferença entre 'não é ruim, é muito bom' e 'não é bom,
O parágrafo 'Combinações de recursos' da Seção 3 de Goldberg, Y. (2015). Uma cartilha sobre modelos de redes neurais para processamento de linguagem natural. Journal of Artificial Intelligence Research, 57, 345-420. muito bem explica isso (eu realmente recomendo a leitura de toda a seção 3, é excelente):
Os recursos de combinação são cruciais nos modelos lineares, porque introduzem mais dimensões na entrada, transformando-a em um espaço onde os pontos de dados estão mais próximos de serem separáveis linearmente. Por outro lado, o espaço de combinações possíveis é muito grande e o designer de recursos precisa gastar muito tempo criando um conjunto eficaz de combinações de recursos. Uma das promessas dos modelos de redes neurais não lineares é que é preciso definir apenas os principais recursos. Espera-se que a não linearidade do classificador, conforme definida pela estrutura da rede, procure encontrar as combinações indicativas de recursos, aliviando a necessidade de engenharia de combinação de recursos.