Respostas:
No livro Elementos da Aprendizagem Estatística , Hastie et al. forneça uma comparação muito perspicaz e completa dessas técnicas de encolhimento. O livro está disponível online ( pdf ). A comparação é feita na seção 3.4.3, página 69.
A principal diferença entre Lasso e Ridge é o termo de penalidade que eles usam. Ridge usa o termo de penalidade de que limita o tamanho do vetor de coeficiente. Lasso usa a penalidade de L 1 que impõe esparsidade entre os coeficientes e, portanto, torna o modelo ajustado mais interpretável. O Elasticnet é apresentado como um compromisso entre essas duas técnicas e possui uma penalidade que é uma mistura das normas L 1 e L 2 .
Para resumir, aqui estão algumas diferenças salientes entre Lasso, Ridge e Elastic-net:
Eu recomendo que você dê uma olhada em Uma introdução ao livro de aprendizado estatístico (Tibshirani et. Al, 2013).
A razão para isto é que o livro Elementos de aprendizagem estatística é destinado a indivíduos com treinamento avançado em ciências matemáticas. No prefácio ao ISL, os autores escrevem:
Uma Introdução à Aprendizagem Estatística surgiu da necessidade percebida de um tratamento mais amplo e menos técnico desses tópicos. [...]
Uma Introdução à Aprendizagem Estatística é apropriada para estudantes avançados de graduação ou mestrado em estatística ou campos quantitativos relacionados ou para indivíduos de outras disciplinas que desejam usar ferramentas de aprendizagem estatística para analisar seus dados.
As respostas acima são muito claras e informativas. Eu gostaria de acrescentar um ponto menor da perspectiva estatística. Tome a regressão do cume como exemplo. É uma extensão da regressão de mínimos quadrados ordinais para resolver os problemas de multicolinearidade quando existem muitos recursos correlatos. Se a regressão linear for
Y=Xb+e
A solução da equação normal para a regressão linear múltipla
b=inv(X.T*X)*X.T*Y
A solução da equação normal para a regressão de crista é
b=inv(X.T*X+k*I)*X.T*Y.
É um estimador tendencioso para be sempre podemos encontrar um termo de penalidade k que tornará o erro quadrado médio da regressão de Ridge menor que o da regressão OLS.
Para LASSO e Elastic-Net, não conseguimos encontrar uma solução analítica.