As características das imagens que as tornam passíveis de classificação com uma rede neural profunda são várias características (possivelmente milhões, senão bilhões de pixels com RGB, intensidade etc.) e se você tiver etiquetas precisas, não serão dados ruidosos. Hoje em dia, as câmeras são muito boas e não medem nada. Graças à Internet, agora temos muitas imagens rotuladas com precisão. Uma rede profunda pode expressar funções arbitrariamente complicadas, o que é um problema com dados barulhentos porque você pode facilmente superestimar o ruído, por isso muitos métodos de aprendizado tendem a penalizar modelos complicados. No caso do reconhecimento de imagem, no entanto, a verdadeira função parece realmente muito complicada, não temos idéia de como é a forma funcional e nem sabemos quais são os recursos relevantes em muitos casos.
Isso não significa que você não pode usar redes profundas para aprender funções que não têm nada a ver com imagens. Você só precisa ter muito cuidado com as desvantagens, principalmente porque é muito propenso a sobreajuste, mas também que é computacionalmente caro e pode levar muito tempo para ser treinado (hoje em dia não há tanto problema com SGD e GPUs paralelas). A outra desvantagem é que você tem muito pouca ou nenhuma interpretabilidade do modelo, o que realmente não importa para a classificação da imagem. Estamos apenas tentando fazer com que os computadores reconheçam a diferença entre um chimpanzé e um orangotango. A compreensão humana da fórmula não importa. Para outros domínios, especialmente diagnósticos médicos, pesquisa de políticas, etc., você deseja ou pode precisar de compreensão humana.