Como o termo de momento para o algoritmo de retropropagação funciona?

Ao atualizar os pesos de uma rede neural usando o algoritmo de retropropagação com um termo de momento, a taxa de aprendizado também deve ser aplicada ao termo de momento?

A maioria das informações que pude encontrar sobre o uso do momento tem as equações parecidas com esta:

$W_{i}' = W_{i} - \alpha \Delta W_i + \mu \Delta W_{i-1}$

onde $\alpha$ é a taxa de aprendizado e $\mu$ é o termo do momento.

se o termo for maior que o termo , na próxima iteração, o da iteração anterior terá uma influência maior no peso que o atual. $\mu$ $\alpha$ $\Delta W$

Esse é o objetivo do termo momentum? ou a equação deve se parecer mais com isso?

$W_{i}' = W_{i} - \alpha( \Delta W_i + \mu \Delta W_{i-1})$

ie escalando tudo pela taxa de aprendizado?

machine-learning neural-networks

— guskenny83
fonte

Usando retropropagação com momento em uma rede com pesos diferentes a ésima correção do peso é dada por $n$ $W_k$ $i$ $W_k$

onde $\Delta W_k(i) = -\alpha \frac{\partial E}{\partial W_k} + \mu \Delta W_k(i-1)$ representa a variação da perda wrt. $\frac{\partial E}{\partial W_k}$ $W_k$

A introdução da taxa de momento permite a atenuação das oscilações na descida do gradiente. A idéia geométrica por trás dessa idéia provavelmente pode ser melhor entendida em termos de uma análise do espaço próprio no caso linear. Se a razão entre o menor e o maior autovalor for grande, a execução de uma descida de gradiente será lenta, mesmo se a taxa de aprendizado for grande devido ao condicionamento da matriz. O momento introduz um certo equilíbrio na atualização entre os vetores próprios associados aos valores próprios menores e maiores.

Para mais detalhes, refiro-me a

http://page.mi.fu-berlin.de/rojas/neural/chapter/K8.pdf

— nico
fonte

O que significa o underbrace?

— David Richerby

ok, então o termo do momento é incorporado ao calcular o termo

, em vez de ser adicionado ao calcular o "novo" valor do peso? Apenas para esclarecer, seu termo

ser

? ou é uma proporção do peso real e não a mudança na taxa? obrigado por sua resposta e pelo link para o artigo.

Δ W_{k}

$\Delta W_k$

μ W_{k} (i - 1)

$\mu W_k(i-1)$

μ Δ W_{k} (i - 1)

$\mu \Delta W_k(i-1)$

— guskenny83

obrigado por apontar o erro. É claro que

Δ W_{k} (i - 1)

$\Delta W_k(i-1)$

— nico 14/10

O que você quer dizer com "variação da perda"? Isso é algo como "variação no erro"?

— starbeamrainbowlabs

Significa apenas a derivada do erro em relação aos pesos.

— Nico 8/18