Artigo: Qual é a diferença entre Normalização de Camada, Normalização de Lote Recorrente (2016) e RNN Normalizada de Lote (2015)?


30

Então, recentemente, há um artigo sobre Normalização de Camadas . Há também uma implementação no Keras.

Mas lembro-me de que existem artigos intitulados Normalização de Lote Recorrente (Cooijmans, 2016) e Redes Neurais Recorrentes Normalizadas em Lote (Laurent, 2015). Qual é a diferença entre esses três?

Existe esta seção de trabalho relacionado que eu não entendo:

A normalização de lotes foi estendida anteriormente para redes neurais recorrentes [Laurent et al., 2015, Amodei et al., 2015, Cooijmans et al., 2016]. O trabalho anterior [Cooijmans et al., 2016] sugere que o melhor desempenho da normalização recorrente de lotes seja obtido mantendo-se estatísticas de normalização independentes para cada etapa do tempo. Os autores mostram que a inicialização do parâmetro de ganho na camada de normalização de lote recorrente para 0,1 faz diferença significativa no desempenho final do modelo. Nosso trabalho também está relacionado à normalização do peso [Salimans e Kingma, 2016]. Na normalização do peso, em vez da variação, a norma L2 dos pesos recebidos é usada para normalizar as entradas somadas de um neurônio. Aplicar a normalização de peso ou a normalização de lote usando as estatísticas esperadas é equivalente a ter uma parametrização diferente da rede neural feed-forward original. A red parametrização na rede ReLU foi estudada no SGD Pathnormalized [Neyshabur et al., 2015]. Nosso método de normalização da camada proposto, no entanto, não é uma redefinição da rede neural original. O modelo de camada normalizada, portanto, possui propriedades de invariância diferentes dos outros métodos , que estudaremos na seção a seguir

Respostas:


25
  • Normalização de camada ( Ba 2016 ): não usa estatísticas de lote. Normalize usando as estatísticas coletadas de todas as unidades em uma camada da amostra atual. Não funciona bem com ConvNets.

  • Normalização recorrente de lotes (BN) ( Cooijmans, 2016 ; também proposta simultaneamente por Qianli Liao & Tomaso Poggio , mas testada em ConvNets recorrentes, em vez de RNN / LSTM): O mesmo que normalização de lotes. Use estatísticas de normalização diferentes para cada etapa do tempo. Você precisa armazenar um conjunto de média e desvio padrão para cada etapa do tempo.

  • Redes Neurais Recorrentes Normalizadas em Lote ( Laurent, 2015 ): a normalização em lote é aplicada apenas entre o estado de entrada e oculto, mas não entre estados ocultos. isto é, a normalização não é aplicada ao longo do tempo.

  • Normalização de transmissão ( Liao et al. 2016 ): resume as normalizações existentes e supera a maioria dos problemas mencionados acima. Funciona bem com ConvNets, aprendizado recorrente e aprendizado on-line (por exemplo, mini-lote pequeno ou uma amostra de cada vez):

  • L2L21y=x(W/|W|)xWgy=ygg parece não ser essencial para o desempenho (também as camadas aprendidas a jusante podem aprender isso de qualquer maneira).

  • eu2y=(x/|x|)(W/|W|)xW

Observe que a Normalização de peso e cosseno tem sido amplamente utilizada (denominada produto pontilhado normalizado) nos anos 2000 em uma classe de ConvNets chamada HMAX (Riesenhuber 1999) para modelar a visão biológica. Você pode encontrá-los interessantes.

Ref: Referência do Modelo HMAX

Ref: Referência do Simulador de Rede Cortical

Ref: Normalização do cosseno: usando a similaridade do cosseno em vez do produto de ponto em redes neurais , Luo Chunjie, Zhan jianfeng, lei de Wang, Yang Qiang

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.