+1 na ilustração de Glen_b e nos comentários das estatísticas no estimador de Ridge. Gostaria apenas de adicionar um ponto de vista puramente matemático (álgebra linear) na regressão de Ridge, que responde às questões 1 e 2 do OP.
Primeira nota que é uma matriz semidefinida positiva simétrica - vezes a matriz de covariância da amostra. Por isso, tem a decomposição autônomaX′Xp×pn
X′X=VDV′,D=⎡⎣⎢⎢d1⋱dp⎤⎦⎥⎥,di≥0
Agora, como a inversão da matriz corresponde à inversão dos valores próprios, o estimador OLS requer (observe que ). Obviamente, isso só funciona se todos os autovalores forem estritamente maiores que zero, . Para isso é impossível; para é geralmente verdade - é nesse caso que geralmente estamos preocupados com a multicolinearidade .(X′X)−1=VD−1V′V′=V−1di>0p≫nn≫p
Como estatísticos, também queremos saber como pequenas perturbações nos dados alteram as estimativas. É claro que uma pequena alteração em qualquer leva a uma enorme variação em se for muito pequena.Xdi1/didi
Então, o que a regressão de Ridge faz é mover todos os autovalores para mais longe de zero,
X′X+λIp=VDV′+λIp=VDV′+λVV′=V(D+λIp)V′,
que agora possui valores próprios . É por isso que escolher um parâmetro de penalidade positiva torna a matriz invertível - mesmo no caso de . Para a regressão de Ridge, uma pequena variação nos dados não tem mais o efeito extremamente instável que tem na inversão da matriz.
di+λ≥λ≥0p≫nX
A estabilidade numérica está relacionada ao encolhimento a zero, pois ambos são uma conseqüência da adição de uma constante positiva aos valores próprios: torna-o mais estável porque uma pequena perturbação em não altera muito o inverso; reduz-o para perto de já que agora o termo é multiplicado por que é mais próximo de zero do que a solução OLS com autovalores inversos .X0V−1X′y1/(di+λ)1/d