Seja a matriz preditora centrada n × p e considere sua decomposição de valor singular X = U S V ⊤ com S sendo uma matriz diagonal com elementos diagonais s i .Xn × pX = U S V⊤SsEu
Os valores ajustados dos mínimos quadrados (OLS) regressão são dadas por y S G S = X β S G S = X ( X ⊤ X ) - 1 X ⊤ y = L L ⊤ y . Os valores ajustados da regressão de cumeeira é dado por y r i d g de e = X β r i d g de e = X ( X ⊤ X
y^O L S= X βO L S= X ( X⊤X )- 1X⊤y = U U⊤y .
Os valores ajustados da regressão PCA (PCR) com
kcomponentes são dadas por
y PCR=XPCUmaβPCR=Ly^r i d g e= X βr i d g e= X ( X⊤X +λ I )- 1X⊤y = Ud i a g { s2Eus2Eu+ λ} U⊤y .
k onde existem
k uns seguidos por zeros.
y^P C R=XPCAβPCR=Udiag{1,…,1,0,…0}U⊤y,
k
A partir daqui, podemos ver que:
Se , em seguida, y r i d g de e = y S G S .λ=0y^ridge=y^OLS
λ>0sis2i≈λ
kλ=0kλ=∞
Isso significa que a regressão de crista pode ser vista como uma "versão suave" da PCR.
siX
A regressão de Ridge tende a ter um melhor desempenho na prática (por exemplo, para ter um desempenho validado mais alto).
λ→0y^r i d g e→ y^O L SsEu
Uma boa referência é The Elements of Statistical Learning , Seção 3.4.1 "Regressão de Ridge".
Veja também este tópico: Interpretação da regularização de crista em regressão e, em particular, a resposta de @BrianBorchers.