O que é um "mapeamento residual"?

Um artigo recente de He et al. ( Deep Residual Learning for Image Recognition , Microsoft Research, 2015) afirma que eles usam até 4096 camadas (não neurônios!).

Estou tentando entender o papel, mas tropeço na palavra "residual".

Alguém poderia me dar uma explicação / definição o que significa residual neste caso?

Exemplos

Reformulamos explicitamente as camadas como aprendendo funções residuais com referência às entradas da camada, em vez de aprender funções não referenciadas.

[...]

Em vez de esperar que cada camada empilhada se encaixe diretamente no mapeamento subjacente desejado, deixamos explicitamente que essas camadas se ajustem ao mapeamento residual. Formalmente, denotando o mapeamento subjacente desejado como $\mathcal{H}(x)$ , deixamos que as camadas não lineares empilhadas se ajustem a outro mapeamento de $\mathcal{F}(x) := \mathcal{H}(x)−x$ . O mapeamento original é reformulado $\mathcal{F}(x)+x$ . Nossa hipótese é que é mais fácil otimizar o mapeamento residual do que otimizar o mapeamento original e não referenciado

machine-learning neural-network

— Martin Thoma
fonte

Isso pode ser um problema de idioma. Se você conhece a tradução alemã de "residual" nesse contexto, também ficaria feliz com isso.

— Martin Thoma

Está $F(x)$ ; a diferença entre o mapeamento $H(x)$ e sua entrada $x$ . É um termo comum em matemática ( DE ).

— Emre
fonte

Isso não está correto. O termo Residual, como é encontrado em matemática, não é o mesmo que o mapeamento residual sobre o qual o artigo fala. Pelo link que você listou, vemos que para f (x) = b, o residual é a diferença bf (x). O mapeamento residual é, por definição, a diferença entre a entrada x e a saída da função H (x).

— Spurra