Estou executando um modelo de regressão com Lasso e Ridge (para prever uma variável de resultado discreto variando de 0 a 5). Antes de executar o modelo, uso o SelectKBest
método de scikit-learn
para reduzir o conjunto de recursos de 250 para 25 . Sem uma seleção inicial de recursos, Lasso e Ridge produzem escores de precisão mais baixos [o que pode ser devido ao pequeno tamanho da amostra, 600]. Além disso, observe que alguns recursos estão correlacionados.
Depois de executar o modelo, observo que a precisão da previsão é quase a mesma com Lasso e Ridge. No entanto, quando verifico os 10 primeiros recursos depois de ordená-los pelo valor absoluto dos coeficientes, vejo que há no máximo 50% de sobreposição.
Ou seja, considerando que a importância diferente dos recursos foi atribuída por cada método, eu poderia ter uma interpretação totalmente diferente, com base no modelo escolhido.
Normalmente, os recursos representam alguns aspectos do comportamento do usuário em um site. Portanto, quero explicar as descobertas destacando os recursos (comportamentos do usuário) com maior capacidade preditiva versus recursos mais fracos (comportamentos do usuário). No entanto, não sei como avançar neste momento. Como devo abordar a interpretação do modelo? Por exemplo, devo combinar os dois e destacar o que se sobrepõe, ou devo usar o Lasso, pois ele oferece mais interpretabilidade?
Normally, the features represent some aspects of user behavior in a web site. Therefore, I want to explain the findings by highlighting the features (user behaviors) with stronger predictive ability vs weaker features (user behaviors) .