Atualmente, estou trabalhando nesse problema e o objetivo é desenvolver um modelo de regressão linear para prever meu Y (pressão arterial) com 8 preditores, usando a regressão de Ridge & Lasso. Começo examinando a importância de cada um dos preditores. Abaixo está um da minha regressão linear múltipla com como redimensionado estar em uma escala semelhante a outros preditores.
Call:
lm(formula = sys ~ age100 + sex + can + crn + inf + cpr + typ +
fra)
Residuals:
Min 1Q Median 3Q Max
-80.120 -17.019 -0.648 18.158 117.420
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 145.605 9.460 15.392 < 2e-16 ***
age100 -1.292 12.510 -0.103 0.91788
sex 5.078 4.756 1.068 0.28701
can -1.186 8.181 -0.145 0.88486
crn 14.545 7.971 1.825 0.06960 .
inf -13.660 4.745 -2.879 0.00444 **
cpr -12.218 9.491 -1.287 0.19954
typ -11.457 5.880 -1.948 0.05283 .
fra -10.958 9.006 -1.217 0.22518
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 31.77 on 191 degrees of freedom
Multiple R-squared: 0.1078, Adjusted R-squared: 0.07046
F-statistic: 2.886 on 8 and 191 DF, p-value: 0.004681
Simplesmente olhando para os valores P do mesa, eu escolhi e como preditores potenciais 'menos importantes'. Então eu usei para ajustar uma regressão de crista e regressão de laço de Y com todos os meus X, permita que a função escolha um valor para mim. Plotei as duas regressões, com 100 valores para cume e 65 valores para laço. Finalmente, adicione pontos situados acima dos índices 100 e 65, desenhados em valores verticais iguais às 8 estimativas dos mínimos quadrados dos coeficientes (em vermelho).
Resultando nas duas parcelas acima, algumas diferenças que eu vi foram
Parece-me razoável que Lasso eliminou duas variáveis ( e ), que parece concordar com minha suposição anterior de ter esses dois preditores como "menos importantes". Observe no gráfico de cordilheiras, o primeiro e o terceiro pontos de estimativa estão fora da linha. No entanto, na trama da moça, os pontos estão certos nessas linhas. Isso indica melhora da redução do meu preditor de cume para laço? (AKA, modelo de 6 preditores faz um trabalho melhor na adaptação dos dados do que o modelo de 8 preditores?)
Eu também tenho mais algumas perguntas:
As estimativas de regressão de crista no menor valor λ são exatamente as mesmas que as estimativas de mínimos quadrados?
Como interpretar essas duas parcelas? (o que significa para os pontos finais em vermelho na linha ou acima ou abaixo).