Como interpretar os resultados quando o cume e o laço executam bem separadamente, mas produzem coeficientes diferentes

Estou executando um modelo de regressão com Lasso e Ridge (para prever uma variável de resultado discreto variando de 0 a 5). Antes de executar o modelo, uso o SelectKBestmétodo de scikit-learnpara reduzir o conjunto de recursos de 250 para 25 . Sem uma seleção inicial de recursos, Lasso e Ridge produzem escores de precisão mais baixos [o que pode ser devido ao pequeno tamanho da amostra, 600]. Além disso, observe que alguns recursos estão correlacionados.

Depois de executar o modelo, observo que a precisão da previsão é quase a mesma com Lasso e Ridge. No entanto, quando verifico os 10 primeiros recursos depois de ordená-los pelo valor absoluto dos coeficientes, vejo que há no máximo 50% de sobreposição.

Ou seja, considerando que a importância diferente dos recursos foi atribuída por cada método, eu poderia ter uma interpretação totalmente diferente, com base no modelo escolhido.

Normalmente, os recursos representam alguns aspectos do comportamento do usuário em um site. Portanto, quero explicar as descobertas destacando os recursos (comportamentos do usuário) com maior capacidade preditiva versus recursos mais fracos (comportamentos do usuário). No entanto, não sei como avançar neste momento. Como devo abordar a interpretação do modelo? Por exemplo, devo combinar os dois e destacar o que se sobrepõe, ou devo usar o Lasso, pois ele oferece mais interpretabilidade?

— renakre
fonte

(+1) A regularização pode ser vista como piorando as estimativas individuais do coeficiente e melhorando seu desempenho coletivo na previsão de novas respostas. O que exatamente você está tentando alcançar com sua interpretação?

— Scortchi - Restabelece Monica

@ Scortchi obrigado por responder. Eu adicionei isto

Normally, the features represent some aspects of user behavior in a web site. Therefore, I want to explain the findings by highlighting the features (user behaviors) with stronger predictive ability vs weaker features (user behaviors) .

— renakre 14/03

+1 AFAIK, a relação entre coeficientes de cordilheira e lambda não precisa ser monotônica, enquanto no laço é. Assim, em certos níveis de contração, o valor absoluto dos coeficientes na crista e no laço pode variar bastante. Dito isto, eu apreciaria se alguém pode esboçar uma prova disso ou logo explicar matematicamente

— Łukasz Grad

Verifique se você está classificando os coeficientes "beta". Consulte stats.stackexchange.com/a/243439/70282 Você pode obtê-los treinando em variáveis padronizadas ou ajustando posteriormente, conforme descrito no link.

— 31417 Chris

Os coeficientes LASSO @ ŁukaszGrad não precisam ser funções monotônicas de

se preditores estiverem correlacionados; veja a figura 6.6 do ISLR para um exemplo.

λ

$\lambda$

— EdM

A regressão de Ridge incentiva todos os coeficientes a se tornarem pequenos. Lasso incentiva muitos / a maioria dos [**] coeficientes a se tornarem zero e alguns não-zero. Ambos reduzirão a precisão no conjunto de treinamento, mas melhorarão a previsão de alguma forma:

A regressão de crista tenta melhorar a generalização para o conjunto de testes, reduzindo o excesso de ajuste
laço reduzirá o número de coeficientes diferentes de zero, mesmo que isso penalize o desempenho nos conjuntos de treinamento e teste

Você pode obter diferentes opções de coeficientes se seus dados estiverem altamente correlacionados. Portanto, você pode ter 5 recursos correlacionados:

Ao atribuir coeficientes pequenos, mas diferentes de zero, a todos esses recursos, a regressão de crista pode obter baixa perda no conjunto de treinamento, o que pode generalizar plausivelmente para o conjunto de teste
o laço pode escolher apenas um deles, que se correlacione bem com os outros quatro. e não há razão para escolher o recurso com o maior coeficiente na versão de regressão de crista

[*] para uma definição de significado 'escolha': atribui um coeficiente diferente de zero, que ainda é um pouco ondulado, uma vez que os coeficientes de regressão da crista tendem a ser todos iguais a zero, mas, por exemplo, alguns podem ser como 1e-8 e outros podem ser, por exemplo, 0,01

$\lambda$

— Hugh Perkins
fonte

Boas sugestões. Um bom check-out é fazer uma matriz de correlação. As variáveis não sobrepostas podem ser altamente correlacionadas.

— 31417 Chris

Boa resposta! No entanto, não tenho certeza se é justo sugerir que o cume tente universalmente melhorar o desempenho do teste sem dizer o mesmo para o laço. Por exemplo, se o modelo verdadeiro é escassa (e no subconjunto dos nossos preditores), podemos esperar imediatamente laço para ter um melhor desempenho no teste de cume

— user795305

Este é o princípio da "aposta na esparsidade". Por exemplo, veja a primeira plotagem aqui: faculty.bscb.cornell.edu/~bien/simulator_vignettes/lasso.html

— user795305 14/17

Comparações de escolhas de variáveis (LASSO) e coeficientes de regressão entre várias amostras de bootstrap dos dados podem ilustrar bem esses problemas. Com preditores correlacionados, aqueles escolhidos pelo LASSO a partir de diferentes bootstraps podem ser bem diferentes enquanto ainda fornecem desempenho preditivo semelhante. Idealmente, todo o processo de construção do modelo, incluindo a redução inicial do conjunto de recursos, deve ser repetido em várias autoinicializações para documentar a qualidade do processo.

— EdM

λ

$\lambda$