Respostas:
Resposta curta: sempre que você estiver enfrentando uma dessas situações:
A regressão de Ridge geralmente produz melhores previsões do que a solução OLS, através de um melhor compromisso entre viés e variância. Sua principal desvantagem é que todos os preditores são mantidos no modelo, portanto, não é muito interessante se você buscar um modelo parcimonioso ou desejar aplicar algum tipo de seleção de recurso.
Para alcançar a escarsidade, o laço é mais apropriado, mas não necessariamente produzirá bons resultados na presença de alta colinearidade (foi observado que, se os preditores estiverem altamente correlacionados, o desempenho da previsão do laço será dominado pela regressão da crista). O segundo problema com a penalidade de L1 é que a solução do laço não é determinada exclusivamente quando o número de variáveis é maior que o número de sujeitos (esse não é o caso da regressão de crista). A última desvantagem do laço é que ele tende a selecionar apenas uma variável entre um grupo de preditores com altas correlações por pares. Nesse caso, existem soluções alternativas como o grupo (ou seja, obter encolhimento no bloco de covariáveis, ou seja, alguns blocos de coeficientes de regressão são exatamente zero) ou fundidoslaço. O Graphical Lasso também oferece recursos promissores para GGMs (consulte o pacote R glasso ).
Mas, definitivamente, os critérios da elasticasticnet , que são uma combinação das penalidades L1 e L2, alcançam a seleção de variáveis de encolhimento e automática e permitem manter variáveis no caso em que . Seguindo Zou e Hastie (2005), é definido como o argumento que minimiza (acima de )
onde e.
O laço pode ser calculado com um algoritmo baseado na descida de coordenadas, conforme descrito no artigo recente de Friedman e col., Caminhos de regularização para modelos lineares generalizados via descida de coordenadas (JSS, 2010) ou o algoritmo LARS. Em R, os pacotes penalizados , lars ou biglars e glmnet são pacotes úteis; no Python, há o kit de ferramentas scikit.learn , com extensa documentação sobre os algoritmos usados para aplicar todos os três tipos de esquemas de regularização.
Quanto às referências gerais, a página Lasso contém a maior parte do necessário para iniciar a regressão do laço e detalhes técnicos sobre a penalidade de L1, e essa pergunta relacionada apresenta referências essenciais: Quando devo usar lasso x cume?
Uma justificativa teórica para o uso da regressão de crista é que sua solução é a média posterior, dada uma normalidade prévia dos coeficientes. Ou seja, se você se importa com o erro ao quadrado e acredita em um anterior normal, as estimativas da crista são ótimas.
Da mesma forma, a estimativa do laço é o modo posterior sob uma dupla exponencial anterior aos seus coeficientes. Isso é ideal sob uma função de perda zero-um.
Na prática, essas técnicas geralmente melhoram a precisão preditiva em situações nas quais você tem muitas variáveis correlacionadas e não muitos dados. Embora o estimador OLS seja melhor imparcialmente linear, ele apresenta alta variação nessas situações. Se você observar o trade-desvio de desvio, a precisão da previsão melhora porque o pequeno aumento no desvio é mais do que compensado pela grande redução na variação.