A regressão com regularização L1 é igual à Lasso e com regularização L2 é igual à regressão de crista? E como escrever "Lasso"?


33

Sou engenheiro de software aprendendo aprendizado de máquina, principalmente através dos cursos de Andrew Ng . Enquanto estudava regressão linear com regularização , encontrei termos que são confusos:

  • Regressão com regularização L1 ou regularização L2
  • LAÇO
  • Regressão de Ridge

Então, minhas perguntas:

  1. A regressão com regularização L1 é exatamente igual ao LASSO?

  2. A regressão com regularização L2 é exatamente a mesma que a regressão de Ridge?

  3. Como o "LASSO" é usado por escrito? Deveria ser "regressão LASSO"? Eu já vi uso como " o laço é mais apropriado ".

Se a resposta for "sim" para 1 e 2 acima, por que existem nomes diferentes para esses dois termos? "L1" e "L2" são provenientes de ciências da computação / matemática, e "LASSO" e "Ridge" são de estatísticas?

O uso desses termos é confuso quando vejo postagens como:

" Qual é a diferença entre regularização L1 e L2? " (Quora.com)

" Quando devo usar o laço vs cume? " (Stats.stackexchange.com)


Embora eu esteja respondendo tarde. Este guia abrangente para iniciantes sobre regressão linear, de cume e laço ajudará os iniciantes a entender esses termos claramente. Veja aqui
estudante

Respostas:


34
  1. Sim.

  2. Sim.

  3. LASSO é na verdade um acrônimo (operador menos absoluto de encolhimento e seleção), portanto deve ser capitalizado, mas a escrita moderna é o equivalente lexical de Mad Max . Por outro lado, Amoeba escreve que mesmo os estatísticos que cunharam o termo LASSO agora usam a renderização em minúscula (Hastie, Tibshirani e Wainwright, Statistical Learning with Sparsity ). Só se pode especular sobre a motivação para a troca. Se você está escrevendo para uma imprensa acadêmica, eles geralmente têm um guia de estilo para esse tipo de coisa. Se você está escrevendo neste fórum, tudo bem, e duvido que alguém realmente se importe.

O notação é uma referência às normas Minkowski e G p espaços. Estes apenas generalizar a noção de táxi e euclidianas distâncias para p > 0 na seguinte expressão: x p = ( | x 1 | p + | x 2 | p + . . . + | X n | p ) 1eueupp>0 0 Importante, somentep1define uma distância métrica; 0<p<1não satisfaz a desigualdade do triângulo, portanto, não é uma distância para a maioria das definições.

__x__p=(|x1|p+|x2|p+...+|xn|p)1p
p10 0<p<1

Não tenho certeza de quando a conexão entre o cume e o LASSO foi realizada.

c


6
+1. No muito recente livro de estatística Statistical Learning with Sparsity , Hastie, Tibshirani e Wainwright usam o "laço" minúsculo em todos os lugares e também escrevem o seguinte (nota de rodapé na página 8): "Um laço é uma corda comprida com um laço em uma usado para capturar cavalos e gado.Em sentido figurado, o método “lassos” os coeficientes do modelo.No artigo original do laço (Tibshirani 1996), o nome “laço” também foi introduzido como acrônimo de “Menos Absoluto Operador de seleção e encolhimento. ”" (CC para @ stackoverflowuser2010.)
ameba diz Reinstate Monica em

3
E eles continuam: "Pronúncia: nos EUA," laço "tende a ser pronunciado" lass-oh "(oh, como em cabra), enquanto no Reino Unido" lass-oo ". No OED (2ª edição, 1965):" lasso é pronunciado lasoo por aqueles que o usam e pela maioria dos ingleses também. ”" :-)
ameba diz Reinstate Monica

4
(+1) Como os acrônimos propriamente ditos (aquelas abreviaturas pronunciadas como palavras) ganham moeda, sua capitalização tende a passar pelo conselho. Já faz um tempo desde que eu vi 'RADAR' ou 'LASER'.
Scortchi - Restabelece Monica

2
@ Scortchi SCUBA também. Enquanto isso, temos pessoas escrevendo STATA e MATLAB como se fossem siglas.
shadowtalker

2
@ssdecontrol: "ANOVA" deve ser "AnOVa", então?
Scortchi - Restabelece Monica
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.