Em " Redes de crenças profundas convolucionais para o aprendizado não supervisionado e escalável de representações hierárquicas ", de Lee et. al. ( PDF ) São propostos DBNs convolucionais. O método também é avaliado para a classificação de imagens. Isso parece lógico, pois existem recursos naturais da imagem local, como pequenos cantos e bordas, etc.
Em " Aprendizado não supervisionado de recursos para classificação de áudio usando redes convolucionais de crenças profundas ", de Lee et. al. esse método é aplicado ao áudio em diferentes tipos de classificações. Identificação de alto-falante, identificação de gênero, classificação por telefone e também alguns gêneros musicais / classificação de artistas.
Como a parte convolucional dessa rede pode ser interpretada para áudio, como pode ser explicada para imagens como bordas?