A regressão LASSO reduz os coeficientes para zero, fornecendo, assim, uma seleção de modelo eficaz. Eu acredito que em meus dados existem interações significativas entre covariáveis nominais e contínuas. Não necessariamente, porém, são os 'efeitos principais' do modelo verdadeiro significativos (diferentes de zero). Claro que não sei disso, pois o verdadeiro modelo é desconhecido. Meus objetivos são encontrar o verdadeiro modelo e prever o resultado o mais próximo possível.
Aprendi que a abordagem clássica para a construção de modelos sempre incluiria um efeito principal antes que uma interação fosse incluída. Portanto, não pode haver um modelo sem um efeito principal de duas covariáveis e se houver uma interação das covariáveis no mesmo modelo. A função, consequentemente, seleciona cuidadosamente os termos do modelo (por exemplo, com base na AIC para trás ou para a frente), respeitando esta regra.step
R
O LASSO parece funcionar de maneira diferente. Como todos os parâmetros são penalizados, pode sem dúvida acontecer que um efeito principal seja reduzido a zero, enquanto a interação do melhor modelo (por exemplo, validado cruzadamente) é diferente de zero. Acho isso particularmente para meus dados ao usar R
o glmnet
pacote.
Recebi críticas com base na primeira regra citada acima, ou seja, meu modelo Lasso final validado cruzado não inclui os termos de efeito principal correspondentes de alguma interação diferente de zero. No entanto, esta regra parece um pouco estranha neste contexto. O que se resume é a questão de saber se o parâmetro no modelo verdadeiro é zero. Vamos supor que sim, mas a interação é diferente de zero, então o LASSO identificará isso talvez, encontrando o modelo correto. De fato, parece que as previsões desse modelo serão mais precisas porque o modelo não contém o efeito principal verdadeiro zero, que é efetivamente uma variável de ruído.
Posso refutar as críticas com base nesse argumento ou devo tomar precauções de alguma forma que o LASSO inclua o efeito principal antes do termo da interação?