Quando usar métodos de regularização para regressão?

83

Em que circunstâncias se deve considerar o uso de métodos de regularização (regressão de crista, laço ou ângulo mínimo) em vez de OLS?

Caso isso ajude a direcionar a discussão, meu principal interesse é melhorar a precisão preditiva.

— NPE
fonte

75

Resposta curta: sempre que você estiver enfrentando uma dessas situações:

grande número de variáveis ou baixa proporção de não. observações para não. variáveis (incluindo o caso ), $n\ll p$
alta colinearidade,
buscando uma solução esparsa (por exemplo, incorporar seleção de recurso ao estimar parâmetros do modelo) ou
contabilizando o agrupamento de variáveis no conjunto de dados de alta dimensão.

A regressão de Ridge geralmente produz melhores previsões do que a solução OLS, através de um melhor compromisso entre viés e variância. Sua principal desvantagem é que todos os preditores são mantidos no modelo, portanto, não é muito interessante se você buscar um modelo parcimonioso ou desejar aplicar algum tipo de seleção de recurso.

Para alcançar a escarsidade, o laço é mais apropriado, mas não necessariamente produzirá bons resultados na presença de alta colinearidade (foi observado que, se os preditores estiverem altamente correlacionados, o desempenho da previsão do laço será dominado pela regressão da crista). O segundo problema com a penalidade de L1 é que a solução do laço não é determinada exclusivamente quando o número de variáveis é maior que o número de sujeitos (esse não é o caso da regressão de crista). A última desvantagem do laço é que ele tende a selecionar apenas uma variável entre um grupo de preditores com altas correlações por pares. Nesse caso, existem soluções alternativas como o grupo (ou seja, obter encolhimento no bloco de covariáveis, ou seja, alguns blocos de coeficientes de regressão são exatamente zero) ou fundidoslaço. O Graphical Lasso também oferece recursos promissores para GGMs (consulte o pacote R glasso ).

Mas, definitivamente, os critérios da elasticasticnet , que são uma combinação das penalidades L1 e L2, alcançam a seleção de variáveis de encolhimento e automática e permitem manter variáveis no caso em que . Seguindo Zou e Hastie (2005), é definido como o argumento que minimiza (acima de ) $m>p$ $n\ll p$ $\beta$

L (λ_{1}, λ_{2}, β) = ‖ Y - X β ‖^{2} + λ_{2} ‖ β ‖^{2} + λ_{1} ‖ β ‖_{1}

$L(\lambda_1,\lambda_2,\mathbf{\beta}) = \|Y-X\beta\|^2 + \lambda_2\|\beta\|^2 + \lambda_1\|\beta\|_1$

onde e. $\|\beta\|^2=\sum_{j=1}^p\beta_j^2$ $\|\beta\|^1=\sum_{j=1}^p|\beta_j |$

O laço pode ser calculado com um algoritmo baseado na descida de coordenadas, conforme descrito no artigo recente de Friedman e col., Caminhos de regularização para modelos lineares generalizados via descida de coordenadas (JSS, 2010) ou o algoritmo LARS. Em R, os pacotes penalizados , lars ou biglars e glmnet são pacotes úteis; no Python, há o kit de ferramentas scikit.learn , com extensa documentação sobre os algoritmos usados para aplicar todos os três tipos de esquemas de regularização.

Quanto às referências gerais, a página Lasso contém a maior parte do necessário para iniciar a regressão do laço e detalhes técnicos sobre a penalidade de L1, e essa pergunta relacionada apresenta referências essenciais: Quando devo usar lasso x cume?

— chl
fonte

11

E se eu tiver muitas observações com relativamente poucas variáveis, mas uma relação sinal / ruído muito baixa? Tão baixo, de fato, que a adaptação excessiva é um problema muito real. A regularização seria algo sensato para tentar melhorar a precisão preditiva?

— NPE

11

@aix Depende do que você realmente chama de poucas variáveis e de que tipo de variáveis você está lidando. Mas acho que uma abordagem de cordilheira é a preferida no seu caso. Você também pode ver a Regressão de Boosting Ridge (Tutz & Binder, 2005). A estimativa de ML penalizada também foi proposta como um método embutido para impedir o ajuste excessivo; veja, por exemplo, Estimativa de Máxima Verossimilhança Penalizada para prever resultados binários: Luas KG, Donders AR, Steyerberg EW, Harrell FE. J. Clin. Epidemiol. 2004, 57 (12): 1262–70.

— chl

20

Uma justificativa teórica para o uso da regressão de crista é que sua solução é a média posterior, dada uma normalidade prévia dos coeficientes. Ou seja, se você se importa com o erro ao quadrado e acredita em um anterior normal, as estimativas da crista são ótimas.

Da mesma forma, a estimativa do laço é o modo posterior sob uma dupla exponencial anterior aos seus coeficientes. Isso é ideal sob uma função de perda zero-um.

Na prática, essas técnicas geralmente melhoram a precisão preditiva em situações nas quais você tem muitas variáveis correlacionadas e não muitos dados. Embora o estimador OLS seja melhor imparcialmente linear, ele apresenta alta variação nessas situações. Se você observar o trade-desvio de desvio, a precisão da previsão melhora porque o pequeno aumento no desvio é mais do que compensado pela grande redução na variação.

— ncray
fonte