Eu já tenho uma idéia sobre prós e contras da regressão de cume e do LASSO.
Para o LASSO, o termo de penalidade de L1 produzirá um vetor de coeficiente esparso, que pode ser visto como um método de seleção de recurso. No entanto, existem algumas limitações para o LASSO. Se os recursos tiverem alta correlação, o LASSO selecionará apenas um deles. Além disso, para problemas em que > , o LASSO selecionará no máximo parâmetros ( e são o número de observações e parâmetros, respectivamente). Isso torna o LASSO empiricamente um método subótimo em termos de previsibilidade em comparação com a regressão de crista.
Para regressão de crista, oferece melhor previsibilidade em geral. No entanto, sua interpretabilidade não é tão boa quanto o LASSO.
A explicação acima pode ser encontrada em livros didáticos em aprendizado de máquina / mineração de dados. No entanto, ainda estou confuso sobre duas coisas:
Se normalizarmos o intervalo de recursos (digamos entre 0 e 1, ou com média zero e variação de unidade) e executarmos a regressão de crista, ainda podemos ter uma idéia da importância do recurso classificando os valores absolutos dos coeficientes (o recurso mais importante tem o valor absoluto mais alto dos coeficientes). Embora não estejamos selecionando recursos explicitamente, a interpretabilidade não se perde com a regressão de crista. Ao mesmo tempo, ainda podemos alcançar alto poder de previsão. Então, por que precisamos do LASSO? Estou faltando alguma coisa aqui?
O LASSO é preferido devido à sua natureza de seleção de recursos? No meu entender, as razões pelas quais precisamos da seleção de recursos são a capacidade de generalizar e facilitar o cálculo.
Para facilitar a computação, não queremos alimentar todos os 1 milhão de recursos em nosso modelo se estiver executando algumas tarefas de PNL, portanto, descartamos alguns recursos obviamente inúteis primeiro para reduzir o custo computacional. No entanto, para o LASSO, só podemos saber o resultado da seleção de recursos (o vetor esparso) depois de inserir todos os dados em nosso modelo, para que não nos beneficiemos do LASSO em termos de redução de custos computacionais. Só podemos tornar a previsão um pouco mais rápida, pois agora alimentamos apenas o subconjunto de recursos (digamos, 500 em 1 milhão) em nosso modelo para gerar resultados previstos.
Se o LASSO é preferido por sua capacidade de generalização, também podemos alcançar o mesmo objetivo usando a regressão de crista (ou qualquer outro tipo de regularização). Por que precisamos do LASSO (ou redes elásticas) novamente? Por que não podemos nos ater à regressão de crista?
Alguém poderia esclarecer isso? Obrigado!