Como uma folha convolucional difere de uma rede convolucional comum?


9

Atualmente, estou trabalhando na recriação dos resultados deste artigo . No artigo, eles descrevem um método para usar CNN para extração de recursos e têm um modelo acústico que é Dnn-hmm e pré-treinado usando RBM.

Seção III, subseção A, declara maneiras diferentes pelas quais os dados de entrada podem ser representados. Decidi empilhar verticalmente os gráficos dos espectros delta estático e delta.

Então, como tal: insira a descrição da imagem aqui

O documento descreve como deve ser a rede. Eles afirmam que usam uma rede convolucional, mas nada sobre a estrutura da rede. Além disso, a rede é sempre referida como uma camada convolucional? que tenho certeza de que vejo alguma diferença em comparação com uma rede neural convolucional de rede comum (cnn).

O artigo afirma isso sobre a diferença:

(da seção III, subseção B)

Uma camada de convolução difere de uma camada oculta padrão e totalmente conectada em dois aspectos importantes, no entanto. Primeiro, cada unidade convolucional recebe entrada apenas de uma área local da entrada. Isso significa que cada unidade representa alguns recursos de uma região local da entrada. Segundo, as próprias unidades da camada de convolução podem ser organizadas em vários mapas de características, onde todas as unidades no mesmo mapa de características compartilham os mesmos pesos, mas recebem informações de diferentes locais da camada inferior

Outra coisa que eu queria saber é se o documento realmente indica quantos parâmetros de saída são necessários para alimentar o modelo acústico dnn-hmm. Não consigo decodificar o número de filtros, tamanhos de filtros ... em detalhes gerais da rede?


Eu também estou interessado nisso. Acho que posso começar uma recompensa para acelerar o processo.
Lamda

Respostas:


4

Parece que uma camada convolucional é exatamente o mesmo que uma camada convolucional comum. Em seu trabalho, eles argumentam que o termo "camada CNN" geralmente se refere a uma camada convolucional seguida por uma camada de pool. Na tentativa de reduzir a confusão, eles chamam a parte convolucional de "camada de convolução" e a parte de pool como "camada de pool":

Na terminologia da CNN, um par de camadas de convolução e de agrupamento na Fig. 2 em sucessão é geralmente chamado de "camada" da CNN. Uma CNN profunda, portanto, consiste em dois ou mais desses pares em sucessão. Para evitar confusão, nos referiremos às camadas de convolução e pool como camadas de convolução e pool, respectivamente.

Ironicamente, isso aumentou a confusão, levando a este post. Na época, suponho que não era comum haver várias camadas convolucionais seguidas antes de uma camada de pool, mas vemos isso frequentemente nas arquiteturas modernas.

Para responder sua outra pergunta sobre a estrutura da rede; eles indicam a estrutura da rede que eles usam na seção Experiências (Seção VB). Para esperamos reduzir a confusão, eu substituiu a palavra "ply" com "camada":

Nessas experiências, usamos uma convolução [camada], um pooling [camada] e duas camadas ocultas totalmente conectadas no topo. As camadas totalmente conectadas tinham 1000 unidades em cada uma. Os parâmetros de convolução e pool foram: tamanho de pool de 6, tamanho de turno de 2, tamanho de filtro de 8, 150 mapas de recursos para o FWS e 80 mapas de recursos por faixa de frequência para o LWS.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.