A padronização antes de Lasso é realmente necessária?

Eu li três razões principais para padronizar variáveis antes de algo como Lassoregressão:

1) Interpretabilidade dos coeficientes.

2) Capacidade de classificar a importância do coeficiente pela magnitude relativa das estimativas de coeficiente pós-retração.

3) Não há necessidade de interceptação.

Mas estou pensando no ponto mais importante. Temos motivos para pensar que a padronização melhoraria a generalização fora da amostra do modelo? Também não me importo se não preciso de uma interceptação no meu modelo; adicionar um não me machuca.

— Jase
fonte

Esclarecimento: você parece querer perguntar: "Desde que a padronização seja opcional (um dos casos especiais em que os resultados não são distorcidos por magnitudes diferentes), a padronização melhorará a generalização fora da amostra?" Isso está correto?

— Drew75

@ Drew75 Prefiro uma repartição de casos, por exemplo, ajuda quando os resultados são "distorcidos por diferentes magnitudes", ajuda quando os resultados não são distorcidos etc., etc., a melhor resposta cobre situações diferentes.

— Jase

Então sua pergunta não é sobre Lasso (porque em geral a padronização é necessária antes de Lasso). É mais geral. Talvez mude o título e a primeira frase da pergunta.

— Drew75

@ Drew: Isso é bastante questionador: por que é necessário (quando não é?)? O que significa distorcer os resultados (em comparação com o que?)? Eu acho que a pergunta está boa como está.

— Scortchi - Restabelece Monica

@ Drew75 Minha pergunta é sobre Lasso.

— Jase

Respostas:

A regressão do laço impõe restrições ao tamanho dos coeficientes associados a cada variável. No entanto, esse valor dependerá da magnitude de cada variável. Portanto, é necessário centralizar e reduzir ou padronizar as variáveis.

O resultado da centralização das variáveis significa que não há mais interceptação. Isso se aplica igualmente à regressão de crista, a propósito.

Outra boa explicação é este post: Necessidade de centralizar e padronizar dados em regressão

— Drew75
fonte

Isso não é uma resposta ou uma resposta extremamente indireta à minha pergunta. Por favor, explique o link entre sua resposta e a generalização fora da amostra (que foi a pergunta).

— Jase

@Jase: aborda o principal motivo da padronização, que você omitiu da sua lista: se você deseja eliminar preditores com pequenos coeficientes (ou usar um termo de penalidade dependendo da magnitude do coeficiente), precisa decidir o que conta como "pequeno " Embora a padronização não seja obrigatória antes do LASSO ou de outros métodos de regressão penalizados, raramente é o caso em que as escalas originais em que os preditores sejam medidos sejam úteis para esse fim.

— Scortchi - Restabelece Monica

E o ponto sobre a centralização é que você geralmente não deseja interromper ou reduzir a interceptação.

— Scortchi - Restabelece Monica

λ

$\lambda$

Em termos gerais, o quanto você encolhe no geral afetará a generalização em amostras aleatórias; a decisão um tanto arbitrária de quanto diminuir cada preditor em relação aos outros afetará a generalização para novas amostras de populações semelhantes, onde os coeficientes são um pouco diferentes, onde a distribuição dos preditores não é necessariamente muito parecida com a do conjunto de treinamento , & c. (É claro que sua pergunta merece uma resposta mais completa.)

— Scortchi - Reinstate Monica

O parâmetro de penalidade L1 é uma soma dos termos beta absolutos. Se as variáveis têm dimensões diferentes, esse termo não é realmente aditivo, embora matematicamente não exista nenhum erro.

No entanto, não vejo as variáveis fictícias / categóricas que sofrem com esse problema e acho que elas não precisam ser padronizadas. padronizá-las pode reduzir a interpretabilidade das variáveis

— Sumit Dhar
fonte