O que exatamente é um bloco de Aprendizagem Residual no contexto de Redes Residuais Profundas na Aprendizagem Profunda?


12

Eu estava lendo o artigo Deep Residual Learning for Image Reconhecimento e tive dificuldades em entender com 100% de certeza o que um bloco residual implica computacionalmente. Lendo o trabalho deles, eles têm a figura 2:

insira a descrição da imagem aqui

que ilustra o que um bloco residual é suposto ser. O cálculo de um bloco residual é simplesmente o mesmo que:

y=σ(W2σ(W1x+b1)+b2+x)

Ou é outra coisa?

Em outras palavras, talvez para tentar corresponder à notação do artigo, é:

F(x)+x=[W2σ(W1x+b1)+b2]+x

isso é verdade?

Observe que após a soma do círculo, a palavra ReLU aparece no papel; portanto, a saída de um bloco residual (que eu denotei por ) deve ser:y

σ(F(x)+x)=σ([W2σ(W1x+b1)+b2]+x)

com uma não linearidade adicional da ReLU .σ


é X é Relu positiva (x) = x
Raio Tayek

Respostas:


Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.