Uma CNN aprenderá a reconhecer padrões no espaço. Assim, como você diz, uma CNN aprenderá a reconhecer componentes de uma imagem (por exemplo, linhas, curvas, etc.) e depois aprenderá a combinar esses componentes para reconhecer estruturas maiores (por exemplo, faces, objetos etc.).
Você poderia dizer, de uma maneira muito geral, que uma RNN também aprenderá a reconhecer padrões ao longo do tempo. Portanto, uma RNN treinada para traduzir texto pode aprender que "cachorro" deve ser traduzido de maneira diferente se precedido pela palavra "quente".
O mecanismo pelo qual os dois tipos de NNs representam esses padrões é diferente, no entanto. No caso de uma CNN, você está procurando os mesmos padrões em todos os diferentes subcampos da imagem. No caso de uma RNN, você está (no caso mais simples) alimentando as camadas ocultas da etapa anterior como uma entrada adicional na próxima etapa. Enquanto a RNN acumula memória nesse processo, não está procurando os mesmos padrões em diferentes fatias de tempo da mesma maneira que uma CNN está procurando os mesmos padrões em diferentes regiões do espaço.
Devo também observar que, quando digo aqui "tempo" e "espaço", não deve ser tomado literalmente. Você pode executar um RNN em uma única imagem para legendar imagens, por exemplo, e o significado de "tempo" seria simplesmente a ordem na qual diferentes partes da imagem são processadas. Portanto, os objetos processados inicialmente informarão a legenda dos objetos processados posteriormente.