Eu sou novo no ML. Fui informado de que a normalização L2 da regressão de crista não pune a interceptação . Como na função de custo: O termo de normalização de L2 apenas soma de a , não de a . Eu também li que: ∇ θ J ( θ ) = 1 λ∑ n j = 1 θ 2 j j=1nj=0n
na maioria dos casos (todos os casos?), é melhor você não regularizar , pois é improvável que você reduza a e diminua o espaço das funções representáveis
que vem da última resposta do usuário48956 de Por que um modelo de regressão linear com interceptação zero prevê melhor do que um modelo com interceptação?
Estou confuso sobre como resolver a derivada da função de custo, pois: onde , e .Θ
Θθθ e são diferentes. Portanto, eles não podem ser misturados do meu ponto de vista. E a derivada é sobre, que contém . Após pesquisar no Google e visualizar as perguntas neste fórum, ainda não há como obter a solução: Alguém pode me dar uma pista? Agradeço antecipadamente por sua ajuda! Θ=(XtX+λ*I) - 1 XTY
No entanto, acho que existem duas correções rápidas para esse problema:
Primeiro de tudo, nós não adicionar a coluna toda 1 a . Ou seja, . Ou seja, não incluímos a interceptação no modelo: Acredito que esse método seja adotado no livro clássico Machine Learning in Action, de Peter Harrington, que estou lendo atualmente. Na implementação da regressão de crista (P166 e P177, se você também possui o livro), todo o passado para a regressão de crista não possui a coluna todos 1.X = [ y= θ 1 X 1 + θ 2 X 2 +. . . + θ n X n . X
Em segundo lugar, a interceptação também está sendo punida na realidade.
A regressão logística do scikit regulariza a interceptação por padrão.
que mais uma vez vem da última resposta do usuário48956 de Por que um modelo de regressão linear de interceptação zero prevê melhor do que um modelo com interceptação?
Ambas as duas correções rápidas levam à solução
Então, a derivada da normalização L2 da regressão de crista pode realmente ser resolvida ou apenas resolvida por soluções rápidas?