Por que o “laço relaxado” é diferente do laço padrão?

Se começarmos com um conjunto de dados , aplicar o Lasso a ele e obter uma solução , podemos aplicar o Lasso novamente ao conjunto de dados , onde é o conjunto de zero índices de , para obter uma solução, , chamada solução 'LASSO relaxada' (corrija-me se estiver errado!). A solução deve satisfazer as condições de Karush – Kuhn – Tucker (KKT) para , mas, dada a forma das condições KKT para , ela também não as satisfaz? Se sim, qual o sentido de fazer o LASSO uma segunda vez? $(X,Y)$ $\beta^L$ $(X_S, Y)$ $S$ $\beta^L$ $\beta^{RL}$ $\beta^L$ $(X,Y)$ $(X_S, Y)$

Esta pergunta é uma continuação para: Vantagens de fazer "laço duplo" ou executar o laço duas vezes?

— Coca
fonte

A partir da definição 1 de Meinshausen (2007) , existem dois parâmetros que controlam a solução do Lasso relaxado.

O primeiro, , controla a seleção de variáveis, enquanto o segundo, , controla o nível de contração. Quando Lasso e relaxado-Lasso são os mesmos (como você disse!), Mas para você obtém uma solução com coeficientes mais próximos do que daria uma projeção ortogonal nas variáveis selecionadas (tipo de polarização). $\lambda$ $\phi$ $\phi= 1$ $\phi<1$

Na verdade, essa formulação corresponde à solução de dois problemas:

Primeiro o laço completo com o parâmetro de penalização $\lambda$
Segundo, o Lasso em , que é reduzido a variáveis selecionadas por 1, com um parâmetro de penalização . $X_S$ $X$ $\lambda\phi$

— Tonio Bonnef
fonte