O coeficiente variável aumenta e depois cai à medida que o lambda diminui (LASSO)


8

Estou regredindo um preditor contínuo em mais de 60 variáveis ​​(contínuas e categóricas) usando o LASSO (glmnet).

Ao examinar o gráfico de rastreamento de variáveis, noto que, à medida que o log lambda aumenta, uma das principais variáveis ​​tem um coeficiente que realmente aumenta. Depois de um certo ponto, começa a diminuir como esperávamos.

Para garantir que isso não acontecesse, eu corri 10 modelos usando bootstraps e obtive resultados muito semelhantes.

Isso é possível ou há algum problema com os dados? Se legítimo, o que essa tendência no coeficiente da variável nos diz sobre a variável e a relação com a resposta?

Gráfico de rastreio de variável inicial 10 modelos de inicialização

Respostas:


10

Não é apenas possível, é uma ocorrência muito comum.

 λ||β||1λ

i|βi|logλ

Você sempre verá esse tipo de comportamento quando houver alguma correlação entre os preditores - pode haver um tipo de efeito de substituição.

|β4|+|β11|


O que essa dinâmica diz sobre o efeito da variável na resposta em comparação com se ela estava apenas diminuindo com um aumento da lambda?
matsuo_basho

β4β11β4λx4

+1, mas seria possível obter um exemplo construtivo mostrando como e por que essas coisas acontecem?
Richard Hardy

Deixe-me fornecer alguns antecedentes do motivo pelo qual estou fazendo a pergunta. Eu gostaria de identificar as variáveis ​​mais importantes no modelo. Nos modelos que eu executo, vemos que as variáveis ​​4 e 11 ou 24 estão consistentemente no modelo quando o lambda é alto. Assim, podemos dizer que eles são importantes. Embora a variável 4 geralmente tenha um coeficiente positivo, a maneira como ela muda é um pouco confusa. Essa dinâmica nos diz algo sobre a interpretação do efeito das variáveis ​​na resposta?
matsuo_basho
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.