No documento Normalização em lote: acelerando o treinamento em rede profunda por Redução da mudança interna de covariáveis ( aqui ) Antes de explicar o processo de normalização em lote, o artigo tenta explicar os problemas relacionados (não estou entendendo qual é o problema exato abordado aqui) .
excerto da seção 2, parágrafo 2:
Poderíamos considerar as ativações de clareamento em cada etapa do treinamento ou em algum intervalo, modificando a rede diretamente ou alterando os parâmetros do algoritmo de otimização para depender dos valores de ativação da rede (Wiesler et al., 2014; Raiko et al., 2012 ; Povey et al., 2014; Desjardins & Kavukcuoglu). No entanto, se essas modificações forem intercaladas com as etapas de otimização, a etapa de descida do gradiente pode tentar atualizar os parâmetros de uma maneira que exija que a normalização seja atualizada, o que reduz o efeito da etapa de gradiente. Por exemplo, considere uma camada com a entrada u que adicione o viés aprendidoe normaliza o resultado subtraindo a média da ativação calculada sobre os dados de treinamento: Onde é o conjunto de valores de sobre o conjunto de treinamento e .
Se um passo de descida de gradiente ignora a dependência de E [x] em b, ele atualiza , onde . Então .
Assim, a combinação da atualização para be subsequente mudança na normalização não levou a nenhuma alteração na saída da camada nem, consequentemente, à perda. À medida que o treinamento continuar, b crescerá indefinidamente enquanto a perda permanece fixa. Esse problema pode piorar se a normalização não apenas centralizar, mas também dimensionar as ativações.
aqui está o meu entendimento da literatura:
Temos um lote de tamanho N (um lote de treinamento)
Haja duas camadas ocultas arbitrárias conectadas uma à outra (L1 e L2) conectadas pelos parâmetros e
saída saindo de L1 é x1
(é aqui que a literatura acima começa. a dimensão de u é MxN) (M é o número de unidades em L2)
(dimensão b = dimensão x = dimensão u = MxN)
Agora, antes de alimentar x em L2, nós o centralizamos subtraindo a média de de cada entrada em ( )
Calculamos a perda e retropropusamos o gradiente e atualizamos apenas a camada para fazer um teste de sanidade. Novo =
Nós o executamos novamente no mesmo lote com atualizado
repita 3 e 4
(dimensão b, = dimensão x = dimensão u = MxN)
Agora, antes de alimentar x em L2, nós o centralizamos subtraindo a média de de cada entrada em ( ). que é igual ao que foi calculado antes da atualização be, portanto, a atualização b teve efeito no treinamento
Minha pergunta é com esta parte do trecho:
"Se um passo de descida de gradiente ignora a dependência de E [x] em b, ele atualiza , onde . Então ".
Porque é
" " depende do que vem antes dele? Qual é o sentido disso? Observe também o uso da palavra "Então" (em negrito), implicando que a declaração necessariamente extrai causalidade do que vem antes