Descobri que o Imagenet e outras CNNs grandes usam camadas de normalização de resposta local. No entanto, não consigo encontrar tanta informação sobre eles. Quão importantes são e quando devem ser usados?
Em http://caffe.berkeleyvision.org/tutorial/layers.html#data-layers :
"A camada de normalização de resposta local executa um tipo de" inibição lateral "normalizando sobre as regiões de entrada locais. No modo ACROSS_CHANNELS, as regiões locais se estendem por canais próximos, mas não têm extensão espacial (ou seja, têm formato local_size x 1 x 1) No modo WITHIN_CHANNEL, as regiões locais se estendem espacialmente, mas estão em canais separados (ou seja, têm a forma 1 x tamanho_ local x tamanho_s local). Cada valor de entrada é dividido por (1+ (α / n) ∑ix2i) β, onde n é o tamanho de cada região local e a soma é calculada sobre a região centralizada nesse valor (o preenchimento zero é adicionado quando necessário). "
Editar:
Parece que esses tipos de camadas têm um impacto mínimo e não são mais usados. Basicamente, seu papel foi superado por outras técnicas de regularização (como abandono e normalização de lotes), melhores inicializações e métodos de treinamento. Veja minha resposta abaixo para mais detalhes.