compreendendo a normalização de lote

No documento Normalização em lote: acelerando o treinamento em rede profunda por Redução da mudança interna de covariáveis ( aqui ) Antes de explicar o processo de normalização em lote, o artigo tenta explicar os problemas relacionados (não estou entendendo qual é o problema exato abordado aqui) .

excerto da seção 2, parágrafo 2:

Poderíamos considerar as ativações de clareamento em cada etapa do treinamento ou em algum intervalo, modificando a rede diretamente ou alterando os parâmetros do algoritmo de otimização para depender dos valores de ativação da rede (Wiesler et al., 2014; Raiko et al., 2012 ; Povey et al., 2014; Desjardins & Kavukcuoglu). No entanto, se essas modificações forem intercaladas com as etapas de otimização, a etapa de descida do gradiente pode tentar atualizar os parâmetros de uma maneira que exija que a normalização seja atualizada, o que reduz o efeito da etapa de gradiente. Por exemplo, considere uma camada com a entrada u que adicione o viés aprendido $b$ e normaliza o resultado subtraindo a média da ativação calculada sobre os dados de treinamento: $\hat x= x − E[x]$ Onde $x = u + b, X = {x_{1...N}}$ é o conjunto de valores de $x$ sobre o conjunto de treinamento e $E[x] = \frac 1 N(\sum_{i=1}^nx_i)$ .

Se um passo de descida de gradiente ignora a dependência de E [x] em b, ele atualiza , onde . Então . $b ← b + ∆b$ $∆b ∝ −\partial l/\partial\hat x$
$\begin{matrix} (1) & você + (b + ∆ b) - E [você + (b + ∆ b)] = você + b - E [você + b] \end{matrix}$ $u + (b + ∆b) − E[u + (b + ∆b)] = u + b − E[u + b] \tag 1$
Assim, a combinação da atualização para be subsequente mudança na normalização não levou a nenhuma alteração na saída da camada nem, consequentemente, à perda. À medida que o treinamento continuar, b crescerá indefinidamente enquanto a perda permanece fixa. Esse problema pode piorar se a normalização não apenas centralizar, mas também dimensionar as ativações.

aqui está o meu entendimento da literatura:

Temos um lote de tamanho N (um lote de treinamento)
Haja duas camadas ocultas arbitrárias conectadas uma à outra (L1 e L2) conectadas pelos parâmetros e $W$ $b$
saída saindo de L1 é x1
$u = x1W$ (é aqui que a literatura acima começa. a dimensão de u é MxN) (M é o número de unidades em L2)
$x = u+b$ (dimensão b = dimensão x = dimensão u = MxN)
Agora, antes de alimentar x em L2, nós o centralizamos subtraindo a média de de cada entrada em ( ) $x$ $x$ $\hat x= x − E[x]$
Calculamos a perda e retropropusamos o gradiente e atualizamos apenas a camada para fazer um teste de sanidade. Novo = $b$ $b$ $b + \Delta b$
Nós o executamos novamente no mesmo lote com atualizado $b$
repita 3 e 4
$x_{new} = u+b + \Delta b$ (dimensão b, = dimensão x = dimensão u = MxN) $\Delta b$
Agora, antes de alimentar x em L2, nós o centralizamos subtraindo a média de de cada entrada em ( ). que é igual ao que foi calculado antes da atualização be, portanto, a atualização b teve efeito no treinamento $x$ $x$ $\hat x = x + \Delta b − E[x + \Delta b] = x - E[x]$

Minha pergunta é com esta parte do trecho:

"Se um passo de descida de gradiente ignora a dependência de E [x] em b, ele atualiza , onde . Então ". $b ← b + ∆b$ $∆b ∝ −\partial l/\partial\hat x$

\begin{matrix} (1) & você + (b + ∆ b) - E [você + (b + ∆ b)] = você + b - E [você + b] \end{matrix}

$u + (b + ∆b) − E[u + (b + ∆b)] = u + b − E[u + b] \tag 1$

Porque é

" " depende do que vem antes dele? Qual é o sentido disso? Observe também o uso da palavra "Então" (em negrito), implicando que a declaração necessariamente extrai causalidade do que vem antes

\begin{matrix} (1) & você + (b + ∆ b) - E [você + (b + ∆ b)] = você + b - E [você + b] \end{matrix}

$u + (b + ∆b) − E[u + (b + ∆b)] = u + b − E[u + b] \tag 1$

neural-network deep-learning batch-normalization

— MiloMinderbinder
fonte

Vamos supor que você esteja tentando minimizar a seguinte perda para uma determinada tarefa,

ℓ (y, \hat{y}) = \frac{1}{2}__y - \hat{y} {__}^{2},

$\ell(y, \hat{y}) = \frac{1}{2}\| y - \hat{y}\|^2,$ Onde

‖ \cdot ‖

$\| \cdot\|$ é a distância euclediana e a saída prevista é

\hat{y} = \hat{x}

$\hat{y} =\hat{x}$ Pela simplicidade. Os gradientes podem ser calculados da seguinte forma:

Δ b = - \frac{\partial ℓ}{\partial \hat{x}} \cdot \frac{\partial \hat{x}}{\partial b}, Δ ω = - \frac{\partial ℓ}{\partial \hat{x}} \cdot \frac{\partial \hat{x}}{\partial ω}

$\Delta b = - \frac{\partial\ell}{\partial\hat{x}} \cdot \frac{\partial\hat{x}}{\partial b}, \hspace{20pt} \Delta \omega = - \frac{\partial\ell}{\partial\hat{x}} \cdot \frac{\partial\hat{x}}{\partial \omega}$

Agora, o gradiente de $\hat{x}$ com relação ao viés $b$ é

\frac{\partial \hat{x}}{\partial b} = \frac{\partial}{\partial b} (x - E [x]) = \frac{\partial}{\partial b} ((você + b) - E [(você + b)]) = 1 - \frac{\partial}{\partial b} E [(você + b)]

$\frac{\partial\hat{x}}{\partial b} = \frac{\partial}{\partial b}(x-E[x]) = \frac{\partial}{\partial b}\left((u+b)-E[(u+b)]\right) = 1 - \frac{\partial}{\partial b}E[(u+b)]$

Ignorando o fato $E(x)$ depende de $b$ torna o gradiente acima igual a 1 e, portanto, continua atualizando o viés da seguinte maneira:

\frac{\partial \hat{x}}{\partial b} = 1 - \frac{\partial}{\partial b} E [x] = 1 - 0 0 = 1

$\frac{\partial\hat{x}}{\partial b} = 1 - \frac{\partial}{\partial b}E[x] = 1 -0 = 1$ e depois

Δ b = - \frac{\partial ℓ}{\partial \hat{x}} \cdot (1), b \leftarrow b + Δ b

$\Delta b = - \frac{\partial\ell}{\partial\hat{x}} \cdot (1), \hspace{20pt} b \leftarrow b + \Delta b$

Caso contrário, se você quiser considerar essa dependência, o gradiente se tornará 0 e, portanto, nenhuma atualização será a seguinte:

\frac{\partial \hat{x}}{\partial b} = 1 - \frac{\partial}{\partial b} E [você + b] = 1 - (\frac{\partial}{\partial b} E [você] + \frac{\partial}{\partial b} E [b]) = 1 - (0 0 + 1) = 0 0

$\frac{\partial\hat{x}}{\partial b} = 1 - \frac{\partial}{\partial b}E[u+b] = 1 - \left(\frac{\partial}{\partial b}E[u]+\frac{\partial}{\partial b}E[b]\right) = 1 - (0+1) = 0$ e depois

Δ b = - \frac{\partial ℓ}{\partial \hat{x}} \cdot (0 0), b \leftarrow b + 0 0

$\Delta b = - \frac{\partial\ell}{\partial\hat{x}} \cdot (0), \hspace{20pt} b \leftarrow b + 0$

Nos dois casos, independentemente da atualização de viés, a função de perda permanecerá fixa,

você + (b + Δ b) - E [você + (b + ∆ b)] = você + b - E [você + b],

$u+(b+\Delta b)−E[u+(b+∆b)]=u+b−E[u+b],$

no entanto, no primeiro caso, o viés aumentará indefinidamente.

— Shadi
fonte