Essa metodologia é descrita no documento glmnet Paths de regularização para modelos lineares generalizados via descida de coordenadas . Embora a metodologia aqui seja para o caso geral de regularização e , ela deve se aplicar ao LASSO (apenas ) também.L 2 L 1L1L2L1
A solução para o máximo é dada na seção 2.5. λ
Quando , vemos em (5) que permanecerá zero se . Portanto, ˜ β j1β~=0β~jNαλmax=maxl| ⟨Xl,y⟩|1N|⟨xj,y⟩|<λαNαλmax=maxl|⟨xl,y⟩|
Ou seja, observamos que a regra de atualização para beta força todas as estimativas de parâmetro a zero para conforme determinado acima.λ>λmax
A determinação de e o número de pontos da grade parecem menos baseados em princípios. No glmnet, eles definem e, em seguida, escolhem uma grade de pontos igualmente espaçados na escala logarítmica. λ m i n = 0,001 ∗ λ m a x 100λminλmin=0.001∗λmax100
Isso funciona bem na prática, no meu uso extensivo do glmnet, nunca achei essa grade muito grossa.
No LASSO ( ), apenas o caso funciona melhor, pois o método LARS fornece um cálculo preciso para quando os vários preditores entram no modelo. Um LARS verdadeiro não faz uma pesquisa na grade sobre , produzindo uma expressão exata para os caminhos da solução para os coeficientes.
Aqui está uma visão detalhada do cálculo exato dos caminhos do coeficiente nos dois casos preditores.L1λ
O caso dos modelos não lineares (isto é, logístico, poisson) é mais difícil. Em um nível alto, primeiro é obtida uma aproximação quadrática da função de perda nos parâmetros iniciais e, em seguida, o cálculo acima é usado para determinar . Um cálculo preciso dos caminhos dos parâmetros não é possível nesses casos, mesmo quando apenas a regularização é fornecida, portanto, uma pesquisa na grade é a única opção.λ m a x L 1β=0λmaxL1
Os pesos das amostras também complicam a situação; os produtos internos devem ser substituídos em locais apropriados por produtos internos ponderados.