Por que a regressão de cume não oferece melhor interpretabilidade do que o LASSO?

Eu já tenho uma idéia sobre prós e contras da regressão de cume e do LASSO.

Para o LASSO, o termo de penalidade de L1 produzirá um vetor de coeficiente esparso, que pode ser visto como um método de seleção de recurso. No entanto, existem algumas limitações para o LASSO. Se os recursos tiverem alta correlação, o LASSO selecionará apenas um deles. Além disso, para problemas em que > , o LASSO selecionará no máximo parâmetros ( e são o número de observações e parâmetros, respectivamente). Isso torna o LASSO empiricamente um método subótimo em termos de previsibilidade em comparação com a regressão de crista. $p$ $n$ $n$ $n$ $p$

Para regressão de crista, oferece melhor previsibilidade em geral. No entanto, sua interpretabilidade não é tão boa quanto o LASSO.

A explicação acima pode ser encontrada em livros didáticos em aprendizado de máquina / mineração de dados. No entanto, ainda estou confuso sobre duas coisas:

Se normalizarmos o intervalo de recursos (digamos entre 0 e 1, ou com média zero e variação de unidade) e executarmos a regressão de crista, ainda podemos ter uma idéia da importância do recurso classificando os valores absolutos dos coeficientes (o recurso mais importante tem o valor absoluto mais alto dos coeficientes). Embora não estejamos selecionando recursos explicitamente, a interpretabilidade não se perde com a regressão de crista. Ao mesmo tempo, ainda podemos alcançar alto poder de previsão. Então, por que precisamos do LASSO? Estou faltando alguma coisa aqui?
O LASSO é preferido devido à sua natureza de seleção de recursos? No meu entender, as razões pelas quais precisamos da seleção de recursos são a capacidade de generalizar e facilitar o cálculo.

Para facilitar a computação, não queremos alimentar todos os 1 milhão de recursos em nosso modelo se estiver executando algumas tarefas de PNL, portanto, descartamos alguns recursos obviamente inúteis primeiro para reduzir o custo computacional. No entanto, para o LASSO, só podemos saber o resultado da seleção de recursos (o vetor esparso) depois de inserir todos os dados em nosso modelo, para que não nos beneficiemos do LASSO em termos de redução de custos computacionais. Só podemos tornar a previsão um pouco mais rápida, pois agora alimentamos apenas o subconjunto de recursos (digamos, 500 em 1 milhão) em nosso modelo para gerar resultados previstos.

Se o LASSO é preferido por sua capacidade de generalização, também podemos alcançar o mesmo objetivo usando a regressão de crista (ou qualquer outro tipo de regularização). Por que precisamos do LASSO (ou redes elásticas) novamente? Por que não podemos nos ater à regressão de crista?

Alguém poderia esclarecer isso? Obrigado!

— Brad Li
fonte

Isso torna o LASSO empiricamente um método subótimo em termos de previsibilidade em comparação com a regressão de crista. Discordo. Eu não acho que o LASSO seja geralmente pior (ou melhor) que o cume em termos de previsão. Como @jona diz em sua resposta, você pode enfrentar situações em que parte do recurso realmente não pertence ao modelo e, em seguida, o LASSO será mais eficaz em expulsá-lo. No entanto, com o cume todos os recursos seriam incluídos e os irrelevantes contaminariam as previsões. É por isso que precisamos de uma rede elástica - para permitir que os dados decidam a combinação apropriada de e .

L_{1}

$L_1$

L_{2}

$L_2$

— Richard Hardy

Também me pergunto quais livros didáticos dizem coisas como: Para regressão de cume, ele oferece melhor previsibilidade em geral (em contraste com o LASSO, eu entendo, não em contraste com a regressão irrestrita). Talvez geral não seja tão geral em seu uso. Além disso, quanta interpretabilidade os métodos de regularização devem produzir? (Além disso, Shmueli "Para explicar ou prever" (2010) é uma peça agradável, embora não diretamente relacionados.)

— Richard Hardy

@RichardHardy, você está certo. Agora eu li o livro com mais cuidado e descobriu que " não regressão cume nem o laço será universalmente dominar o outro " na página 223, An Introduction to Estatística Aprender com Aplicações em R , Gareth James et al

— Brad Li

@RichardHardy, originalmente encontrei argumentos semelhantes para regularização de L1 nas perguntas frequentes da LIBLINEAR: csie.ntu.edu.tw/~cjlin/liblinear/…

— Brad Li

As cordilheiras e Lasso seriam um exemplo real ou dois para esclarecer as diferenças? (Mas eles não são fáceis de comparar - lote ajuste sparsity vs.?)

— denis

Respostas:

Se você solicitar um milhão de recursos reduzidos, mas não nulos, precisará tomar algum tipo de decisão: analisará os n melhores preditores, mas o que é n ? O LASSO resolve esse problema de maneira objetiva e baseada em princípios, porque a cada passo no caminho (e muitas vezes você se instala em um ponto por exemplo, por validação cruzada), existem apenas m coeficientes que são diferentes de zero.
Muitas vezes, você treina modelos em alguns dados e depois os aplica a alguns dados ainda não coletados. Por exemplo, você pode ajustar seu modelo em 50.000.000 e-mails e usá-lo em todos os novos e-mails. É verdade que você o ajustará no conjunto completo de recursos para os primeiros 50.000.000 e-mails, mas para cada e-mail a seguir, você lidará com um modelo muito mais escasso e mais rápido e com muito mais eficiência de memória. Você também não precisará coletar informações para os recursos descartados, o que pode ser extremamente útil se os recursos forem caros para extrair, por exemplo, por genotipagem.

Outra perspectiva sobre o problema L1 / L2 exposto, por exemplo, Andrew Gelman, é que muitas vezes você tem alguma intuição sobre como pode ser o seu problema. Em algumas circunstâncias, é possível que a realidade seja realmente escassa. Talvez você tenha medido milhões de genes, mas é plausível que apenas 30.000 deles realmente determinem o metabolismo da dopamina. Em tal situação, L1 sem dúvida se encaixa melhor no problema.
Em outros casos, a realidade pode ser densa. Por exemplo, na psicologia, "tudo se correlaciona (até certo ponto) com tudo" (Paul Meehl). As preferências por maçãs versus laranjas provavelmente se correlacionam de alguma forma com as tendências políticas - e mesmo com o QI. A regularização ainda pode fazer sentido aqui, mas os efeitos zero verdadeiros devem ser raros, portanto L2 pode ser mais apropriado.

— jona
fonte

Obrigado. Sua explicação é muito clara! Ainda estou um pouco confuso sobre a interpretabilidade do cume. Posso definir a importância do recurso classificando as variáveis com base em seus valores absolutos? Por exemplo, se o seguinte resultado usando cume , podemos dizer em termos de importância do recurso , já que já normalizamos os recursos dentro do intervalo . Portanto, ainda podemos conseguir interpretabilidade usando cume.

y = - 2 x_{1} + 3 x_{2} - x_{3}

$y = -2x_{1} + 3x_{2}-x_{3}$

x_{2} > x_{1} > x_{3}

$x_{2} > x_{1} > x_{3}$

[0, 1]

$[0, 1]$

— Brad Li

É claro que você pode classificá-los, mas ainda terá que tomar algum tipo de decisão sobre qual subconjunto deles você olha.

— Jona

Outra maneira de expressar isso seria: o cume pode ajudar na seleção de recursos, o LASSO faz a seleção de recursos.

— Jona

@ Brad, além da excelente resposta de jona (+1), observe que julgar a importância do recurso por seu coeficiente de regressão padronizado é uma abordagem possível, mas não a única; existem medidas diferentes de "importância das características" e elas podem facilmente gerar resultados contraditórios. Consulte esta discussão para uma longa discussão: stats.stackexchange.com/questions/64010 .

— Ameba diz Reinstate Monica

A interpretabilidade diminui se o destino depender de muitos recursos. Aumenta se podemos reduzir o número de recursos e também manter a precisão. A regularização de cume não tem a capacidade de reduzir o número de recursos. Mas Lasso tem a capacidade. Como isso acontece é explicado visualmente no seguinte link:

Clique em Artigo em direção à ciência de dados

— solver149
fonte