Backprop através de camadas de pool máximo?

Esta é uma pequena questão conceitual que me incomoda há um tempo: como podemos retropropagar através de uma camada de pool máximo em uma rede neural?

Me deparei com camadas de pool máximo durante o tutorial da biblioteca nn do Torch 7. A biblioteca abstrai o cálculo do gradiente e as passagens para frente para cada camada de uma rede profunda. Não entendo como o cálculo do gradiente é feito para uma camada de pool máximo.

Eu sei que se você tem uma entrada entrando no neurônio da camada , então (definido como ${z_i}^l$ $i$ $l$ ${\delta_i}^l$ ) é dado por: ${\delta_i}^l = \frac{\partial E}{\partial {z_i}^l}$

{δ_{i}}^{l} = θ^{^{'}} ({z_{i}}^{l}) \sum_{j} {δ_{j}}^{l + 1} w_{i, j}^{l, l + 1}

${\delta_i}^l = \theta^{'}({z_i}^l) \sum_{j} {\delta_j}^{l+1} w_{i,j}^{l,l+1}$

Portanto, uma camada de pool máximo receberá os 's da próxima camada, como de costume; mas como a função de ativação para os neurônios de pool máximo recebe um vetor de valores (sobre o qual ele atinge o máximo) como entrada, não é mais um número único, mas um vetor ( ${\delta_j}^{l+1}$ ${\delta_i}^{l}$ teria que ser substituído por). Além disso,, sendo a função max, não é diferenciável em relação às entradas. $\theta^{'}({z_j}^l)$ $\nabla \theta(\left\{{z_j}^l\right\})$ $\theta$

Então .... como deve funcionar exatamente?

neural-network backpropagation

— shinvu
fonte

Respostas:

Não há gradiente em relação aos valores não máximos, pois alterá-los levemente não afeta a saída. Além disso, o máximo é localmente linear com a inclinação 1, com relação à entrada que realmente atinge o máximo. Assim, o gradiente da próxima camada é passado de volta apenas para o neurônio que atingiu o máximo. Todos os outros neurônios obtêm gradiente zero.

$\delta_i^l$ $i^*$ $\left\{\delta_j^{l+1}\right\}$ $i^* = argmax_{i} (z_i^l)$

— abora
fonte

Ah, certo, não há sentido em se propagar de volta pelos neurônios não-máximos - essa foi uma percepção crucial. Portanto, se agora entendi isso corretamente, a propagação traseira através da camada de pool máximo simplesmente seleciona o máximo. neurônio da camada anterior (na qual o pool máximo foi realizado) e continua a propagação traseira somente através disso.

— Shinvu 13/05

Mas você não precisa se multiplicar com a derivada da função de ativação?

— 21718 Jason

@ Jason: A função max é localmente linear para a ativação que obteve o máximo, portanto a derivada é constante 1. Para as ativações que não passaram, é 0. Isso é conceitualmente muito semelhante à diferenciação da ReLU (x ) = função de ativação máxima (0, x).

— Chrigi 5/02

Qual é o passo menor que a largura do kernel para o pool máximo?

— Vatsal 04/03

Ótima resposta! E o caso da borda em que várias entradas têm o mesmo valor máximo (por exemplo, 2 valores têm 0 de uma ReLU e os outros dois são negativos)?

— DankMasterDan 23/04

Max Pooling

Então, suponha que você tenha uma camada P que vem em cima de uma camada PR. Então o passe para frente será mais ou menos assim:

$P_i = f(\sum_j W_{ij} PR_j)$

$P_i$

$grad(PR_j) = \sum_i grad(P_i) f^\prime W_{ij}$

$f = id$ $f = 0$ $f^\prime = 1$ $f^\prime = 0$

$grad(PR_{max\ neuron}) = \sum_i grad(P_i) W_{i\ {max\ neuron}}$

$grad(PR_{others}) = 0.$

— patapouf_ai
fonte

@ A resposta do Shinvu está bem escrita, gostaria de apontar para um vídeo que explica o gradiente da operação Max () e isso dentro de um gráfico computacional que é rápido de entender.!

ao implementar a operação maxpool (um nó computacional em um gráfico computacional - sua arquitetura NN), precisamos de uma função que crie uma matriz de "máscara" que monitore onde está o máximo da matriz. Verdadeiro (1) indica a posição do máximo em X, as outras entradas são Falsas (0). Mantemos o controle da posição do máximo, porque esse é o valor de entrada que influenciou a saída e, portanto, o custo. O Backprop está computando gradientes com relação ao custo; portanto, qualquer coisa que influencie o custo final deve ter um gradiente diferente de zero. Portanto, o backprop "propaga" o gradiente de volta para esse valor de entrada específico que influenciou o custo.

— anu
fonte