[Uma pergunta semelhante foi feita aqui sem respostas]
Eu ajustei um modelo de regressão logística com regularização L1 (regressão logística Lasso) e gostaria de testar os coeficientes ajustados quanto à significância e obter seus valores-p. Sei que os testes de Wald (por exemplo) são uma opção para testar o significado dos coeficientes individuais em regressão completa sem regularização, mas com Lasso acho que surgem mais problemas que não permitem aplicar as fórmulas usuais de Wald. Por exemplo, as estimativas de variância necessárias para o teste não seguem as expressões usuais. O papel Lasso original
http://statweb.stanford.edu/~tibs/lasso/lasso.pdf
sugere um procedimento baseado em autoinicialização para estimar a variação dos coeficientes, que (novamente, acho) pode ser necessária para os testes (seção 2.5, último parágrafo da página 272 e início de 273):
Uma abordagem é através do bootstrap: pode ser corrigido ou podemos otimizar over para cada amostra de bootstrap. A correção t é análoga à seleção do melhor subconjunto ( de recursos ) e ao uso do erro padrão de mínimos quadrados para esse subconjunto
O que eu entendo é: ajuste uma regressão de Lasso repetidamente em todo o conjunto de dados até encontrarmos o valor ideal para o parâmetro de regularização (isso não faz parte do bootstrap) e, em seguida, use apenas os recursos selecionados pelo Lasso para ajustar as regressões OLS às subamostras dos dados e aplique as fórmulas usuais para calcular as variações de cada uma dessas regressões. (E então, o que devo fazer com todas essas variações de cada coeficiente para obter a estimativa final da variação de cada coeficiente?)
Além disso, é correto usar os testes de significância usuais (por exemplo, o teste de Wald, que utiliza os betas e as variações estimados) com as estimativas de Lasso dos coeficientes e as variações estimadas por bootstrap? Tenho certeza de que não, mas qualquer ajuda (use um teste diferente, use uma abordagem mais direta, seja qual for ...) é mais que bem-vinda.
De acordo com as respostas aqui , suspeito que inferência e valores de p simplesmente não podem ser obtidos. No meu caso, os valores de p são um requisito externo (embora o uso da regularização de L1 tenha sido minha escolha).
Muito obrigado
EDIT E se eu ajustar uma regressão logística OLS usando apenas as variáveis selecionadas por uma execução anterior da regressão logística Lasso? Aparentemente (veja aqui ),
Não há necessidade de executar o modelo novamente após a validação cruzada (você obtém os coeficientes da saída do cv.glmnet) e, de fato, se você ajustar o novo modelo de regressão logística sem penalização, estará derrotando o objetivo de usar laço
Mas e se eu fizer isso com o único objetivo de poder calcular valores-p, mantendo o número de variáveis baixo? É uma abordagem muito suja? :-)