Aproximação de segunda ordem da função de perda (Deep learning book, 7.33)


11

No livro de Goodfellow (2016) sobre aprendizado profundo, ele falou sobre a equivalência da parada antecipada à regularização de L2 ( https://www.deeplearningbook.org/contents/regularization.html página 247).

A aproximação quadrática da função de custo é dada por:j

J^(θ)=J(w)+12(ww)TH(ww)

onde é a matriz hessiana (Eq. 7.33). Isso está faltando no meio termo? A expansão de Taylor deve ser: H

f(w+ϵ)=f(w)+f(w)ϵ+12f(w)ϵ2

Respostas:


15

Eles falam sobre os pesos no ideal:

Podemos modelar a função de custo J com uma aproximação quadrática na vizinhança do valor empiricamente ótimo dos pesos w

Nesse ponto, a primeira derivada é zero - o termo do meio é deixado de fora.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.