Técnica de normalização de peso usada no Image Style Transfer

6

Estou tentando implementar o documento Image Style Transfer usando redes neurais convolucionais . Na seção 2 - Representações de imagens profundas, os autores mencionam a seguinte técnica de normalização de peso:

Normalizamos a rede dimensionando os pesos de forma que a ativação média de cada filtro convolucional sobre imagens e posições seja igual a um. Esse redimensionamento pode ser feito para a rede VGG sem alterar sua saída, pois contém apenas funções de ativação linear de retificação e nenhuma normalização ou agrupamento nos mapas de recursos.

De uma pergunta relacionada feita anteriormente, descobri que os autores estão usando os valores de ativação de imagens de validação do ILSVRC definidas para normalizar os pesos.

Eu queria conhecer a formulação matemática de realizar tal normalização, já que eu mesmo não conseguia criar uma.

De acordo com minha compreensão do problema, tenho um mapa de ativação (X) e, correspondente a ele, tenho mapas de ativação K da camada anterior (L) e uma matriz de peso (W) de dimensões 3x3xK, de modo que quando a camada L é convoluída com W produz X. Agora, depois de capturar os valores de ativação de todos os neurônios na camada L para todas as imagens no conjunto de validação, o objetivo é fazer com que a média de todos os neurônios em X em todas as imagens no conjunto de validação seja igual a 1 ajustando de alguma forma W.

Não consegui descobrir o que devo fazer com o W para que isso aconteça.

Além disso, eu queria saber se isso deve ser executado em cascata (sequencial) normalizando primeiro os pesos da camada inicial e depois usando os novos mapas de recursos para normalizar os pesos das camadas à frente ou independentemente para cada mapa de ativação, os valores da camada anterior como os pesos pré-treinados originais para cada mapa de ativação?

— codetrotter
fonte

1

Você está certo que, uma vez que temos as ativações médias de recursos em um conjunto de imagens, normalizamos a rede sequencialmente, camada por camada. Há uma sutileza envolvida, no entanto. Você não pode redimensionar os pesos da camada independentemente das camadas anteriores.

Seja e os pesos e a inclinação do ésimo filtro convolucional na camada . O kernel tem uma forma 3D com dimensões (altura, largura, canais_em), mas para uma notação mais fácil no caminho, vamos remodelá-lo para , onde . $W_i^l$ $b_i^l$ $i$ $l$ $W_i^l$ $h \times w \times c$ $p \times c$ $p = h \times w$

$F_{ij}^l \equiv max(0,\ W_i^l \bullet P_j^{l-1} + b_i^l)$ é a ativação do ésimo filtro na camada na ésima posição na mapa de ativação. Aqui designa a operação de convolução (ou produto interno Frobenius, ou multiplique; adotei o símbolo da resposta de Baba) e é a janela de ativações na saída da camada as quais o filtro convence na posição em consideração. $i$ $l$ $j$ $\bullet$ $P_j^{l-1}$ $h \times w \times c = p \times c$ $l-1$

Seja é a ativação média do ésimo filtro na camada sobre todas as imagens no conjunto de dados e todas as posições no mapa de ativação do filtro. Obviamente, esse é um número não negativo e, na verdade, é positivo para todos os filtros nas redes VGG (quando ativações médias são coletadas em um conjunto de dados de tamanho decente).

μ_{i}^{l} \equiv \underset{X, j}{E} F_{i j}^{l} = \frac{1}{N M^{l}} \sum_{X} \sum_{j = 1}^{M^{l}} F_{i j}^{l} = \frac{1}{N M^{l}} \sum_{X} \sum_{j = 1}^{M^{l}} m a x (0, W_{i}^{l} ∙ P_{j}^{l - 1} + b_{i}^{l})

$\mu_i^l \equiv \mathop{\mathbb{E}}_{X, j}F_{ij}^l = \frac{1}{NM^l} \sum_X \sum_{j=1}^{M^l} F_{ij}^l = \frac{1}{NM^l} \sum_X \sum_{j=1}^{M^l} max(0,\ W_i^l \bullet P_j^{l-1} + b_i^l)$

i

$i$

l

$l$

N

$N$

X

$X$

M^{l}

$M^l$

Agora, suponha que "normalizemos" as ativações dividindo pesos e desvios por . Isso tornaria a média da ativação igual a 1, se as ativações recebidas fossem as mesmas que as ativações não normalizadas originais . Ou seja, , mas somente se as ativações da camada anterior forem as mesmas da rede não normalizada original - a rede que calculamos $\mu_i^l$ $\mathbb{E}_{X, j} max(0,\ \frac{W_i^l}{\mu_i^l} \bullet P_j^{l-1} + \frac{b_i^l}{\mu_i^l}) = 1$ $P_j^{l-1}$ $\mu_i^l$ in. Isso é válido apenas para a primeira camada de conv na rede normalizada, a camada que convolve com a imagem de entrada. Para outras camadas, isso não apenas resultará em escala incorreta, mas também poderá reverter o sinal da convolução e, conseqüentemente, zerar as ativações após a passagem pela ReLU. Em outras palavras, ele altera a saída da rede .

Para corrigir isso, precisamos restaurar as ativações recebidas: mas não podemos alterar os valores recebidos, temos que desfazer a normalização da camada anterior usando os pesos da camada atual. Observe que um peso em um filtro interage apenas com um único canal na camada anterior. Então, redimensionamos todos os pesos em que interagem com o ésimo canal na camada multiplicando-os por . Isso cancela a normalização da camada anterior. $W_i^l$ $k$ ${l-1}$ $\mu_k^{l-1}$

Para formalizar, deixe

$D^{l-1} \equiv \begin{bmatrix} \mu_1^{l-1} & 0 & \dots & 0 \\ 0 & \mu_2^{l-1} & \dots & 0 \\\vdots & & \ddots & \\ 0 & \dots & 0 & \mu_c^{l-1} \end{bmatrix}$ ser as diagonais matriz construída utilizando todas as activações médias de camada . $c \times c$ $c$ $l-1$

Então, . (E é por isso que remodelamos os pesos para 2D, para que possamos multiplicar matrizes em vez de tensores, por uma questão de clareza.) $\mathbb{E}_{X, j} max(0,\ \frac{W_i^l{D^{l-1}}}{\mu_i^l} \bullet P_j^{l-1} + \frac{b_i^l}{\mu_i^l}) = 1$

Observe também que as camadas de pool máxima e média não interferem nesse esquema, porque não alteram a escala.

O exemplo acima provavelmente parece mais complexo do que no código real. Enviei um repositório do GitHub com uma implementação curta do Keras: https://github.com/corleypc/vgg-normalize . Observar o código de amostra provavelmente elucidará ainda mais as coisas.

— cpc
fonte

1

Resposta curta: pegue o mapa de ativação correspondente a uma matriz de peso específica, calcule a média de todas as ativações e faça a média dessa média em todas as imagens. Em seguida, divida a matriz de pesos e o viés por essa média. E sim, faz sentido fazê-lo sequencialmente.

Resposta longa: (Usando a notação usada no artigo que você citou)

O operador de convolução para o mapa de recursos executa um produto interno com patches de imagem : $i^{th}$ $x_j$

m a x {0, w_{i}^{l} ∙ x_{j} + b_{j}^{l}} = F_{i j}^{l}

$max\{0,\ w_i^{l} \bullet x_{j} + b_j^{l}\} = F_{ij}^l$

Eles assumem a média de ativações em todas as imagens e em todos os locais espaciais (vamos chamar de ) $\chi$ $j$ $s_i$

s_{i}^{l} \equiv E_{χ, j} [m a x {0, w_{i}^{l} ∙ x_{j} + b_{j}^{l}}] = \frac{1}{K M_{l}} \sum_{χ} \sum_{j = 1}^{M_{l}} F_{i j}^{l}

$s_i^{l} \equiv \mathbf{E}_{\chi, j}[max\{0,\ w_i^{l} \bullet x_{j} + b_j^{l}\}] = \frac{1}{KM_l} \sum_{\chi} \sum_{j=1}^{M_l} F_{ij}^l$

Aqui é o número de imagens no conjunto de dados. $K$

Agora você apenas escala e por , fornecendo a você: $w_i^{l}$ $b_j^{l}$ $\frac{1}{s_i^{l}}$

E_{χ, j} [m a x {0, \frac{w_{i}^{l}}{s_{i}^{l}} ∙ x_{j} + \frac{b_{j}^{l}}{s_{i}^{l}}}] = 1

$\mathbf{E}_{\chi, j}[ max\{0,\ \frac{w_i^{l}}{s_i^{l}} \bullet x_{j} + \frac{b_j^{l}}{s_i^{l}}\}] = 1$

Isso também garante que as ativações que eram zero antes, após passar pela não linearidade da RELU, permaneçam assim, ou seja,

w_{i}^{l} ∙ x_{j} + b_{j}^{l} < 0 ⟺ \frac{w_{i}^{l}}{s_{i}^{l}} ∙ x_{j} + \frac{b_{j}^{l}}{s_{i}^{l}} < 0

$w_i^{l} \bullet x_{j} + b_j^{l}< 0 \iff \frac{w_i^{l}}{s_i^{l}} \bullet x_{j} + \frac{b_j^{l}}{s_i^{l}}< 0$

— Baba
fonte