Eu estava lendo o artigo Deep Residual Learning for Image Reconhecimento e tive dificuldades em entender com 100% de certeza o que um bloco residual implica computacionalmente. Lendo o trabalho deles, eles têm a figura 2:
que ilustra o que um bloco residual é suposto ser. O cálculo de um bloco residual é simplesmente o mesmo que:
Ou é outra coisa?
Em outras palavras, talvez para tentar corresponder à notação do artigo, é:
isso é verdade?
Observe que após a soma do círculo, a palavra ReLU aparece no papel; portanto, a saída de um bloco residual (que eu denotei por ) deve ser:
com uma não linearidade adicional da ReLU .
é X é Relu positiva (x) = x
—
Raio Tayek