Escolhendo a faixa e a densidade da grade para o parâmetro de regularização no LASSO


11

Enquanto isso, estou estudando o LASSO ( operador menos absoluto de encolhimento e seleção). Vejo que o valor ideal para o parâmetro de regularização pode ser escolhido por validação cruzada. Vejo também na regressão de cume e em muitos métodos que aplicam a regularização, podemos usar o CV para encontrar o parâmetro ideal de regularização (dizendo penalidade). Agora, minha pergunta é sobre valores iniciais do limite superior e inferior do parâmetro e como determinar o comprimento da sequência.

Para ser específico, suponha que tenhamos um problema do e queremos encontrar o valor ideal para a penalidade, \ lambda . Então, como podemos escolher um limite inferior e superior para \ lambda \ em [a = ?, b =?] ? e quantas divisões entre esses dois valores \ frac {(ba)} {k =?} ? λ λ [ a = ? , b = ? ] ( b - a )

LogLikelihood=(yxβ)(yxβ)+λ|β|1
λλ[a=?,b=?](ba)k=?

Pergunta relacionada aqui .
Richard Hardy

Respostas:


11

Essa metodologia é descrita no documento glmnet Paths de regularização para modelos lineares generalizados via descida de coordenadas . Embora a metodologia aqui seja para o caso geral de regularização e , ela deve se aplicar ao LASSO (apenas ) também.L 2 L 1L1L2L1

A solução para o máximo é dada na seção 2.5. λ

Quando , vemos em (5) que permanecerá zero se . Portanto, ˜ β j1β~=0β~jNαλmax=maxl| Xl,y|1N|xj,y|<λαNαλmax=maxl|xl,y|

Ou seja, observamos que a regra de atualização para beta força todas as estimativas de parâmetro a zero para conforme determinado acima.λ>λmax

A determinação de e o número de pontos da grade parecem menos baseados em princípios. No glmnet, eles definem e, em seguida, escolhem uma grade de pontos igualmente espaçados na escala logarítmica. λ m i n = 0,001 λ m a x 100λminλmin=0.001λmax100

Isso funciona bem na prática, no meu uso extensivo do glmnet, nunca achei essa grade muito grossa.

No LASSO ( ), apenas o caso funciona melhor, pois o método LARS fornece um cálculo preciso para quando os vários preditores entram no modelo. Um LARS verdadeiro não faz uma pesquisa na grade sobre , produzindo uma expressão exata para os caminhos da solução para os coeficientes. Aqui está uma visão detalhada do cálculo exato dos caminhos do coeficiente nos dois casos preditores.L1λ

O caso dos modelos não lineares (isto é, logístico, poisson) é mais difícil. Em um nível alto, primeiro é obtida uma aproximação quadrática da função de perda nos parâmetros iniciais e, em seguida, o cálculo acima é usado para determinar . Um cálculo preciso dos caminhos dos parâmetros não é possível nesses casos, mesmo quando apenas a regularização é fornecida, portanto, uma pesquisa na grade é a única opção.λ m a x L 1β=0λmaxL1

Os pesos das amostras também complicam a situação; os produtos internos devem ser substituídos em locais apropriados por produtos internos ponderados.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.