Derivação da função de custo de regressão linear regularizada por curso Coursera Machine Learning


12

Participei do curso "Machine Learning" de Andrew Ng via Coursera há alguns meses, não prestando atenção à maioria das matemáticas / derivações e, em vez disso, focando na implementação e na praticidade. Desde então, voltei a estudar algumas das teorias subjacentes e revisitei algumas das palestras do Prof. Ng. Eu estava lendo sua palestra sobre "Regressão Linear Regularizada" e vi que ele tinha a seguinte função de custo:

J(θ)=1 12m[Eu=1 1m(hθ(x(Eu))-y(Eu))2+λj=1 1nθj2]

Em seguida, ele fornece o seguinte gradiente para essa função de custo:

θjJ(θ)=1 1m[Eu=1 1m(hθ(x(Eu))-y(Eu))xj(Eu)-λθj]

Estou um pouco confuso sobre como ele passa de um para o outro. Quando tentei fazer minha própria derivação, obtive o seguinte resultado:

θjJ(θ)=1 1m[Eu=1 1m(hθ(x(Eu))+y(Eu))xj(Eu)+λθj]

A diferença é o sinal de "mais" entre a função de custo original e o parâmetro de regularização na fórmula do Prof. Ng, transformando-se em um sinal de "menos" em sua função de gradiente, enquanto isso não está acontecendo no meu resultado.

Intuitivamente, entendo por que é negativo: estamos reduzindo o parâmetro theta pela figura do gradiente e queremos que o parâmetro de regularização reduza a quantidade que estamos alterando no parâmetro para evitar o ajuste excessivo. Estou apenas um pouco preso ao cálculo que apóia essa intuição.

Para sua informação, você pode encontrar o deck aqui , nos slides 15 e 16.


11
No seu resultado, você tem um " + " precedendo y ^ (i) - isso é um erro de digitação?
Steve S

Respostas:


12

J(θ)=1 12m[Eu=1 1m(hθ(x(Eu))-y(Eu))2+λj=1 1nθj2]

Agora

θj(hθ(x(Eu))-y(Eu))2=2[(hθ(x(Eu))-y(Eu))θj{hθ(x(Eu))}]

θj(hθ(x(Eu))=[x(Eu)]j

θjλj=1 1nθ2=2λθj

Então, para o caso linear

θjJ(θ)=1 1m[Eu=1 1m(hθ(x(Eu))-y(Eu))xj(Eu)+λθj]

Parece que você e Andrew podem ter erros de digitação. Bem, pelo menos dois de nós três parecem.


está confirmado, apenas um erro de digitação na nota de Andrew, deve ser um sinal de +. E o Prof explica corretamente tudo corretamente, incluindo a intuição θ (1-α (λ / m)), significando toda vez que este encolhe θ, menos a parte usual antes da introdução da regularização.
precisa saber é o seguinte


1

Na verdade, acho que é apenas um erro de digitação.

-α-λθ-α

Faz sentido?

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.