Redes Neurais: momento de mudança de peso e decaimento de peso

Momentum é usado para diminuir as flutuações nas alterações de peso em iterações consecutivas: $\alpha$

Δ ω_{Eu} (t + 1) = - η \frac{\partial E}{\partial W_{Eu}} + α Δ ω_{Eu} (t),

$\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t),$ que é a função de erro, - o vetor de pesos, - taxa de aprendizado.

E (w)

$E({\bf w})$

w

${\bf w}$

η

$\eta$

A redução de peso penaliza as alterações de peso: $\lambda$

Δ ω_{Eu} (t + 1) = - η \frac{\partial E}{\partial W_{Eu}} - λ η ω_{Eu}

$\Delta\omega_i(t+1) =- \eta\frac{\partial E}{\partial w_i} - \lambda\eta\omega_i$

A questão é se faz sentido combinar os dois truques durante a propagação traseira e que efeito isso teria?

Δ ω_{Eu} (t + 1) = - η \frac{\partial E}{\partial W_{Eu}} + α Δ ω_{Eu} (t) - λ η ω_{Eu}

$\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t) - \lambda\eta\omega_i$

— Oleg Shirokikh
fonte

Você quer dizer ωi (t + 1) = ωi - η ∂E / ∂wi + αΔωi (t), em vez de Δωi (t + 1) = ωi - η∂E / ∂wi + αΔωi (t)?

— precisa saber é o seguinte

Sim, é muito comum usar os dois truques. Eles resolvem problemas diferentes e podem trabalhar bem juntos.

Uma maneira de pensar sobre isso é que a redução de peso altera a função que está sendo otimizada , enquanto o momento altera o caminho que você segue para o ideal .

A redução de peso, reduzindo seus coeficientes para zero, garante que você encontre um ótimo local com parâmetros de pequena magnitude. Isso geralmente é crucial para evitar ajustes excessivos (embora outros tipos de restrições nos pesos também possam funcionar). Como benefício colateral, ele também pode facilitar a otimização do modelo, tornando a função objetivo mais convexa.

Depois de ter uma função objetiva, você deve decidir como se mover nela. A descida mais acentuada no gradiente é a abordagem mais simples, mas você está certo de que as flutuações podem ser um grande problema. Adicionar impulso ajuda a resolver esse problema. Se você estiver trabalhando com atualizações em lote (o que geralmente é uma má idéia para redes neurais), as etapas do tipo Newton são outra opção. As novas abordagens "quentes" são baseadas no gradiente acelerado de Nesterov e na otimização "livre de Hessian".

Mas, independentemente de qual dessas regras de atualização você usa (momento, Newton, etc.), você ainda está trabalhando com a mesma função objetivo, determinada pela sua função de erro (por exemplo, erro ao quadrado) e outras restrições (por exemplo, redução de peso) . A principal questão ao decidir qual delas usar é a rapidez com que você obterá um bom conjunto de pesos.

— David J. Harris
fonte

'ele também pode facilitar a otimização do modelo, tornando a função objetivo mais convexa' - você poderia explicar como pesos menores tornam isso possível?

— Alex

s i n (x)

$\mathrm{sin}(x)$

a x^{2}

$a x^2$

a

$a$

Boa resposta, obrigado. E o Adam Optimizer? Ele tem um desempenho melhor do que a combinação de decaimento e momento do peso?

— A.Piro

Adam é como impulso, mas não como decaimento de peso; afeta como você navega na função objetivo, mas não na função objetivo em si.

— David J. Harris