Participei do curso "Machine Learning" de Andrew Ng via Coursera há alguns meses, não prestando atenção à maioria das matemáticas / derivações e, em vez disso, focando na implementação e na praticidade. Desde então, voltei a estudar algumas das teorias subjacentes e revisitei algumas das palestras do Prof. Ng. Eu estava lendo sua palestra sobre "Regressão Linear Regularizada" e vi que ele tinha a seguinte função de custo:
Em seguida, ele fornece o seguinte gradiente para essa função de custo:
Estou um pouco confuso sobre como ele passa de um para o outro. Quando tentei fazer minha própria derivação, obtive o seguinte resultado:
A diferença é o sinal de "mais" entre a função de custo original e o parâmetro de regularização na fórmula do Prof. Ng, transformando-se em um sinal de "menos" em sua função de gradiente, enquanto isso não está acontecendo no meu resultado.
Intuitivamente, entendo por que é negativo: estamos reduzindo o parâmetro theta pela figura do gradiente e queremos que o parâmetro de regularização reduza a quantidade que estamos alterando no parâmetro para evitar o ajuste excessivo. Estou apenas um pouco preso ao cálculo que apóia essa intuição.
Para sua informação, você pode encontrar o deck aqui , nos slides 15 e 16.