Atualmente, estou trabalhando na recriação dos resultados deste artigo . No artigo, eles descrevem um método para usar CNN para extração de recursos e têm um modelo acústico que é Dnn-hmm e pré-treinado usando RBM.
Seção III, subseção A, declara maneiras diferentes pelas quais os dados de entrada podem ser representados. Decidi empilhar verticalmente os gráficos dos espectros delta estático e delta.
O documento descreve como deve ser a rede. Eles afirmam que usam uma rede convolucional, mas nada sobre a estrutura da rede. Além disso, a rede é sempre referida como uma camada convolucional? que tenho certeza de que vejo alguma diferença em comparação com uma rede neural convolucional de rede comum (cnn).
O artigo afirma isso sobre a diferença:
(da seção III, subseção B)
Uma camada de convolução difere de uma camada oculta padrão e totalmente conectada em dois aspectos importantes, no entanto. Primeiro, cada unidade convolucional recebe entrada apenas de uma área local da entrada. Isso significa que cada unidade representa alguns recursos de uma região local da entrada. Segundo, as próprias unidades da camada de convolução podem ser organizadas em vários mapas de características, onde todas as unidades no mesmo mapa de características compartilham os mesmos pesos, mas recebem informações de diferentes locais da camada inferior
Outra coisa que eu queria saber é se o documento realmente indica quantos parâmetros de saída são necessários para alimentar o modelo acústico dnn-hmm. Não consigo decodificar o número de filtros, tamanhos de filtros ... em detalhes gerais da rede?