Os principais benefícios alegados:
(1) Não é necessário fornecer recursos de engenharia manual para problemas de aprendizado não lineares (economizar tempo e escalável para o futuro, pois a engenharia manual é vista por alguns como um curativo de curto prazo)
(2) Às vezes, os recursos aprendidos são melhores que os melhores recursos projetados à mão e podem ser tão complexos (visão computacional - por exemplo, recursos semelhantes a rostos) que levaria muito tempo humano para serem projetados.
(3) Pode usar dados não rotulados para pré-treinar a rede. Suponha que tenhamos 1000000 imagens não rotuladas e 1000 imagens rotuladas. Agora, podemos melhorar drasticamente um algoritmo de aprendizado supervisionado pré-treinando as 1000000 imagens não identificadas com aprendizado profundo. Além disso, em alguns domínios, temos muitos dados não rotulados, mas é difícil encontrar dados rotulados. Um algoritmo que pode usar esses dados não rotulados para melhorar a classificação é valioso.
(4) Empiricamente, quebrou muitos parâmetros de referência que estavam apenas vendo melhorias incrementais até a introdução de métodos de aprendizado profundo.
(5) O mesmo algoritmo funciona em várias áreas com entradas brutas (talvez com pequenos pré-processamento).
(6) Continua melhorando à medida que mais dados são alimentados na rede (assumindo distribuições estacionárias etc).