Um artigo recente de He et al. ( Deep Residual Learning for Image Recognition , Microsoft Research, 2015) afirma que eles usam até 4096 camadas (não neurônios!).
Estou tentando entender o papel, mas tropeço na palavra "residual".
Alguém poderia me dar uma explicação / definição o que significa residual neste caso?
Exemplos
Reformulamos explicitamente as camadas como aprendendo funções residuais com referência às entradas da camada, em vez de aprender funções não referenciadas.
[...]
Em vez de esperar que cada camada empilhada se encaixe diretamente no mapeamento subjacente desejado, deixamos explicitamente que essas camadas se ajustem ao mapeamento residual. Formalmente, denotando o mapeamento subjacente desejado como, deixamos que as camadas não lineares empilhadas se ajustem a outro mapeamento de . O mapeamento original é reformulado. Nossa hipótese é que é mais fácil otimizar o mapeamento residual do que otimizar o mapeamento original e não referenciado