Gostaria de encontrar preditores para uma variável dependente contínua de um conjunto de 30 variáveis independentes. Estou usando a regressão Lasso conforme implementada no pacote glmnet em R. Aqui está um código fictício:
# generate a dummy dataset with 30 predictors (10 useful & 20 useless)
y=rnorm(100)
x1=matrix(rnorm(100*20),100,20)
x2=matrix(y+rnorm(100*10),100,10)
x=cbind(x1,x2)
# use crossvalidation to find the best lambda
library(glmnet)
cv <- cv.glmnet(x,y,alpha=1,nfolds=10)
l <- cv$lambda.min
alpha=1
# fit the model
fits <- glmnet( x, y, family="gaussian", alpha=alpha, nlambda=100)
res <- predict(fits, s=l, type="coefficients")
res
Minhas perguntas é como interpretar a saída:
É correto dizer que no resultado final todos os preditores que mostram um coeficiente diferente de zero estão relacionados à variável dependente?
Seria um relatório suficiente no contexto de uma publicação de revista? Ou é esperado que forneça estatísticas de teste para a significância dos coeficientes? (O contexto é genética humana)
É razoável calcular valores de p ou outra estatística de teste para reivindicar significância? Como aquilo seria possível? Um procedimento está implementado no R?
Um gráfico de regressão simples (pontos de dados plotados com um ajuste linear) para cada preditor seria uma maneira adequada de visualizar esses dados?
Talvez alguém possa fornecer alguns exemplos fáceis de artigos publicados mostrando o uso do Lasso no contexto de alguns dados reais e como relatar isso em um periódico?
cv
para a etapa de previsão?