A seleção de modelos LASSO e avanço / retrocesso têm pontos fortes e limitações. Nenhuma recomendação abrangente pode ser feita. A simulação sempre pode ser explorada para resolver isso.
Ambos podem ser entendida no sentido de dimensionalidade: referindo-se a o número de parâmetros de modelo e o número de observações. Se você foi capaz de ajustar modelos usando a seleção inversa de modelos, provavelmente não tinha . Nesse caso, o modelo "melhor ajuste" é aquele que usa todos os parâmetros ... quando validado internamente! Isso é simplesmente uma questão de sobreajuste.pnp ≫ n
O sobreajuste é corrigido usando a validação cruzada de amostra dividida (CV) para avaliação do modelo. Como você não descreveu isso, presumo que você não fez. Diferentemente da seleção de modelo por etapas, o LASSO usa um parâmetro de ajuste para penalizar o número de parâmetros no modelo. Você pode corrigir o parâmetro de ajuste ou usar um processo iterativo complicado para escolher esse valor. Por padrão , o LASSO faz o último. Isso é feito com o CV para minimizar o MSE de previsão. Não estou ciente de nenhuma implementação da seleção de modelo por etapas que use técnicas tão sofisticadas, que até o BIC como critério sofreria viés de validação interna. Pela minha conta, isso automaticamente dá alavancagem ao LASSO em relação à seleção de modelos passo a passo "pronta para uso".
Por fim, a seleção de modelo por etapas pode ter critérios diferentes para incluir / excluir diferentes regressores. Se você usar os valores-p para o teste Wald dos parâmetros específicos do modelo ou o modelo resultante R ^ 2, não se sairá bem, principalmente por causa do viés de validação interno (novamente, pode ser corrigido com o CV). Acho surpreendente que ainda seja assim que esses modelos tendem a ser implementados. AIC ou BIC são critérios muito melhores para a seleção de modelos.
Existem vários problemas com cada método. Os problemas da seleção de modelos passo a passo são muito mais bem compreendidos e muito piores que os do LASSO. O principal problema que vejo com sua pergunta é que você está usando ferramentas de seleção de recursos para avaliar a previsão . São tarefas distintas. O LASSO é melhor para seleção de recursos ou seleção de modelo esparso. A regressão de Ridge pode fornecer uma melhor previsão, pois usa todas as variáveis.
A grande força do LASSO é que ele pode estimar modelos nos quais , como pode ser o caso da regressão passo a passo (mas não para trás). Nos dois casos, esses modelos podem ser eficazes para previsão somente quando houver um punhado de preditores muito poderosos. Se um resultado é melhor do previsto por muitos preditores fracos, regressão cume, em seguida, ou ensacamento / impulsionando irá superar tanto regressão passo a passo para a frente e LASSO por um tiro longo. O LASSO é muito mais rápido que a regressão passo a passo.p ≫ n
Obviamente, existe muita sobreposição entre a seleção e a previsão de recursos, mas nunca lhe digo como a chave inglesa serve como martelo. Em geral, para a previsão com um número escasso de coeficientes de modelo , eu preferiria o LASSO em vez da seleção progressiva de modelos por etapas.p ≫ n