As redes convolucionais (CNN) dependem de convolução matemática (por exemplo, convoluções 2D ou 3D), que é comumente usada para processamento de sinal. As imagens são um tipo de sinal e a convolução pode ser igualmente usada em sons, vibrações etc. Portanto, em princípio, as CNNs podem encontrar aplicações para qualquer sinal e, provavelmente, mais.
Na prática, já existe trabalho sobre PNL (como mencionado por Matthew Graves), onde algumas pessoas processam texto com CNNs em vez de redes recursivas. Alguns outros trabalhos se aplicam ao processamento de som (nenhuma referência aqui, mas ainda tenho trabalhos não publicados em andamento).
Conteúdo original: em resposta à pergunta do título original, que foi alterada agora. Talvez seja necessário excluir este .
Pesquisas em redes adversárias (e relacionadas) mostram que mesmo redes profundas podem ser facilmente enganadas , levando-as a ver um cachorro (ou qualquer outro objeto) no que parece ser ruído aleatório quando um ser humano olha para ela (o artigo tem exemplos claros).
Outra questão é o poder de generalização de uma rede neural. As redes convolucionais surpreenderam o mundo com sua capacidade de generalizar muito melhor do que outras técnicas. Mas se a rede receber apenas imagens de gatos, ela reconhecerá apenas gatos (e provavelmente verá gatos em todos os lugares, como pelos resultados adversos da rede). Em outras palavras, até as CNs têm dificuldade em generalizar muito além do que aprenderam.
É difícil definir com precisão o limite de reconhecimento. Eu diria simplesmente que a diversidade dos dados de aprendizado ultrapassa o limite (presumo que mais detalhes devam levar a um local mais apropriado para a discussão).