As redes residuais estão relacionadas ao aumento de gradiente?

11

Recentemente, vimos o surgimento da Rede Neural Residual, em que cada camada consiste em um módulo computacional e uma conexão de atalho que preserva a entrada na camada, como mostra a saída da i-ésima camada: A rede permite extrair recursos residuais e permite uma profundidade mais profunda, ao mesmo tempo em que é mais robusta ao problema do gradiente de fuga, alcançando um desempenho de última geração. $c_i$

y_{i + 1} = c_{i} + y_{i}

$y_{i+1} = c_i + y_i$

Tendo investigado o aumento de gradiente , uma técnica de montagem muito poderosa no mundo do aprendizado de máquina, que também parece executar uma forma de otimização de gradiente no resíduo da perda. É difícil não ver alguma forma de semelhança.

Eu sei que eles são semelhantes, mas não são os mesmos - uma grande diferença que notei é que o aumento do gradiente realiza otimização no termo aditivo, enquanto a rede residual otimiza toda a rede.

Não vi Ele et al. Notar isso como parte de sua motivação em seu artigo original . Então, fiquei pensando quais são as suas idéias sobre esse tópico e solicite que você compartilhe recursos interessantes que você possui.

Obrigado.

— rhadar
fonte

7

Potencialmente, um artigo mais recente que tenta abordar mais sobre isso da equipe de Langford e Shapire: Aprendendo blocos Deep ResNet sequencialmente usando a Teoria do Impulso

As partes de interesse são (Veja a seção 3):

$\sum_{t=0}^T f_t(g_t(x))$ $\mathbf{w}_t$
$o_{t} (x) := w_{t}^{T} g_{t} (x) \in R$ $o_t(x) := \mathbf{w}_t^T g_t(x) \in \mathbb{R}$

...

$o_t(x) = \sum_{{t'} = 0}^{t-1} \mathbf{w}_t^T f_{t'}(g_{t'}(x))$

$h_t(x)$

Adicionando um pouco mais de detalhes a essa resposta, todos os algoritmos de impulso podem ser escritos de alguma forma [1] (p 5, 180, 185 ...):

F_{T} (x) := \sum_{t = 0}^{T} α_{t} h_{t} (x)

$F_T(x) := \sum_{t=0}^T \alpha_t h_t(x)$

$h_t$ $t^{th}$ $\alpha_t$ $\alpha_t$ $h_t$

$h_t$ $\epsilon_t$ $\alpha_t = \frac{1}{2} \log \frac{1- \epsilon_t}{\epsilon_t}$

$h_t$ $\nabla\mathcal{L}(F_{t-1}(x)) \cdot h_t$ $\alpha_t > 0$

$T$ $F(x)$

F (x) \propto \sum_{t = 0}^{T} h_{t} (x)

$F(x) \propto \sum_{t=0}^T h_t(x)$

$F_T(x) := \sum_{t=0}^T \alpha_t h_t(x)$

[1] Robert E. Schapire e Yoav Freund. 2012. Boosting: Fundações e Algoritmos. O MIT Pressione. p 5, 180, 189
[2] Furong Huang, Jordan Ash, John Langford e Robert Schapire: aprendendo blocos ResNet profundos sequencialmente usando a teoria de impulso, ICML 2018

— chappers
fonte

4

Respondendo à minha própria pergunta: Encontrei um artigo notável que investiga e prova que as Redes Residuais Profundas são realmente um conjunto de redes rasas.

EM OUTRA EDIÇÃO, depois de compreender esse problema, abit mais: Eu olho para as Resnets como uma maneira de aprender 'Reforço de Recursos'. A conexão residual realiza um aumento, mas não no objetivo, mas na verdade nos recursos de saída da próxima camada. Portanto, eles estão de fato conectados, mas não é um aumento clássico do gradiente, mas, na verdade, 'Gradient Feature Boosting'.

— rhadar
fonte