O que exatamente é um bloco de Aprendizagem Residual no contexto de Redes Residuais Profundas na Aprendizagem Profunda?

Eu estava lendo o artigo Deep Residual Learning for Image Reconhecimento e tive dificuldades em entender com 100% de certeza o que um bloco residual implica computacionalmente. Lendo o trabalho deles, eles têm a figura 2:

que ilustra o que um bloco residual é suposto ser. O cálculo de um bloco residual é simplesmente o mesmo que:

y = σ (W_{2} σ (W_{1} x + b_{1}) + b_{2} + x)

$\mathbf{y} = \sigma( W_2 \sigma( W_1 \mathbf{x} + b_1 ) + b_2 + \mathbf{x} )$

Ou é outra coisa?

Em outras palavras, talvez para tentar corresponder à notação do artigo, é:

F (x) + x = [W_{2} σ (W_{1} x + b_{1}) + b_{2}] + x

$\mathcal F(x) + x = \left[ W_2 \sigma( W_1 \mathbf{x} + b_1 ) + b_2 \right] + \mathbf{x}$

isso é verdade?

Observe que após a soma do círculo, a palavra ReLU aparece no papel; portanto, a saída de um bloco residual (que eu denotei por ) deve ser: $\mathbf{y}$

σ (F (x) + x) = σ ([W_{2} σ (W_{1} x + b_{1}) + b_{2}] + x)

$\sigma( \mathcal F(x) + x ) = \sigma( \left[ W_2 \sigma( W_1 \mathbf{x} + b_1 ) + b_2 \right] + \mathbf{x} )$

com uma não linearidade adicional da ReLU . $\sigma$

— Charlie Parker
fonte

é X é Relu positiva (x) = x

— Raio Tayek

Sim, é verdade, você pode dar uma olhada no modelo caffe para ver como ele é implementado.

— dontloo
fonte