KKT versus formulação irrestrita da regressão do laço

A regressão penalizada de L1 (aka laço) é apresentada em duas formulações. Seja as duas funções objetivas Então as duas formulações diferentes são sujeito a e, equivalentemente Usando as condições de Karush-Kuhn-Tucker (KKT), é fácil ver como a condição de estacionariedade para a primeira formulação é equivalente a pegar o gradiente da segunda formulação e defini-lo como 0. O que não consigo encontrar, nem descobrir , é como a condição de folga complementar para a primeira formulação,

Q_{1} = \frac{1}{2} | | Y - X β | |_{2}^{2} Q_{2} = \frac{1}{2} | | Y - X β | |_{2}^{2} + λ | | β | |_{1} .

$Q_1 = \frac{1}{2}||Y - X\beta||_2^2 \\ Q_2 =\frac{1}{2}||Y - X\beta||_2^2 + \lambda ||\beta||_1.$

{argmin}_{β} Q_{1}

$\text{argmin}_\beta \; Q_1$

| | β | |_{1} \leq t,

$||\beta||_1 \leq t,$

{argmin}_{β} Q_{2} .

$\text{argmin}_\beta \; Q_2.$

λ (| | β | |_{1} - t) = 0

$\lambda\left(||\beta||_1 - t\right) = 0$ , é garantido o cumprimento da solução para a segunda formulação.

regression lasso penalized

— goodepic
fonte

Respostas:

As duas formulações são equivalentes no sentido de que para cada valor de na primeira formulação, existe um valor de para a segunda formulação, de modo que as duas formulações tenham o mesmo minimizador . $t$ $\lambda$ $\beta$

Aqui está a justificativa:

Considere a formulação do laço: Deixe o minimizador ser e seja . Minha afirmação é que, se você definir na primeira formulação, a solução da primeira formulação também será . Aqui está a prova:

f (β) = \frac{1}{2} | | Y - X β | |_{2}^{2} + λ | | β | |_{1}

$f(\beta)=\frac{1}{2}||Y - X\beta||_2^2 + \lambda ||\beta||_1$

β^{*}

$\beta^*$

b = | | β^{*} | |_{1}

$b=||\beta^*||_1$

t = b

$t=b$

β^{*}

$\beta^*$

Considere a primeira formulação Se possível, deixe que a segunda formulação tenha uma solução modo que (observe o sinal estritamente menor que). Então é fácil ver que contradiz o fato de que é uma solução para o laço. Assim, a solução para a primeira formulação também é .

min \frac{1}{2} | | Y - X β | |_{2}^{2} s.t. | | β | |_{1} \leq b

$\min \frac{1}{2}||Y - X\beta||_2^2 \text{ s.t.} ||\beta||_1\leq b$

\hat{β}

$\hat{\beta}$

| | \hat{β} | |_{1} < | | β^{*} | |_{1} = b

$||\hat{\beta}||_1<||\beta^*||_1=b$

f (\hat{β}) < f (β^{*})

$f(\hat{\beta})<f(\beta^*)$

β^{*}

$\beta^*$

β^{*}

$\beta^*$

Como , a condição de folga complementar é satisfeita no ponto de solução . $t=b$ $\beta^*$

Portanto, dada uma formulação de laço com , você constrói uma formulação restrita usando um igual ao valor da norma da solução de laço. Por outro lado, dada uma formulação restrita com , você encontra modo que a solução para o laço seja igual à solução da formulação restrita. $\lambda$ $t$ $l_1$ $t$ $\lambda$

(Se você conhece sub-alunos, pode encontrar isso resolvendo a equação , em que $\lambda$ $X^T(y-X\beta^*)=\lambda z^*$ $z^* \in \partial ||\beta^*||_1)$

— elexhobby
fonte

Excelente. Depois de ver a solução, você sempre se sente burro por não chegar lá. Suponho que você queira dizer, ao encontrar a contradição, suponha que encontramos um tal que ?

\hat{β}

$\hat{\beta}$

| | \hat{β} | |_{1} < | | β^{*} | |_{1} = b

$||\hat{\beta}||_1 < ||\beta^*||_1 = b$

— goodepic

Considere flaggin resposta como correta

— bdeonovic

você pode explicar por que

f (\hat{β}) < f (β^{*})

$f(\hat{\beta}) < f(\beta^*)$

— goofd

Isso prova que a solução para a primeira formulação também deve ter uma norma l1 de b. Como isso prova que as duas soluções são realmente as mesmas?

— broncoAbierto

Além disso, o Lasso nem sempre tem uma solução única, por isso não pode referir-se o minimizador. arxiv.org/pdf/1206.0313.pdf . No entanto, poderíamos nos referir ao conjunto de minimizadores e mostrar que alguns devem pertencer a esse conjunto.

\hat{β} \neq β^{*}

$\hat{\beta} \neq \beta^*$

— broncoAbierto

Acho que a idéia de elexhobby para essa prova é boa, mas não acho que esteja completamente correta.

Ao mostrar que a existência de uma solução para a primeira formulação, , é tal queleva a uma contradição, só podemos assumir a necessidade de, não que . $\hat{\beta}$ $\|\hat{\beta}\| < \|\beta^*\|$ $\|\hat{\beta}\| = \|\beta^*\|$ $\hat{\beta} = \beta^*$

Sugiro, em vez disso, que procedamos da seguinte maneira:

Por conveniência, vamos denotar por e a primeira e a segunda formulação, respectivamente. Vamos supor que tenha uma solução exclusiva, , com . Deixe ter uma solução, . Então, nós temos esse(não pode ser maior por causa da restrição) e, portanto, . Se então não é a solução para o , o que contradiz nossas suposições. Se $P_1$ $P_2$ $P_2$ $\beta^*$ $\|\beta^*\|=b$ $P_1$ $\hat{\beta} \neq \beta^*$ $\|\hat{\beta}\| \leq \|\beta^*\|$ $f(\hat{\beta}) \leq f(\beta^*)$ $f(\hat{\beta}) < f(\beta^*)$ $\beta^*$ $P_2$ $f(\hat{\beta}) = f(\beta^*)$ então , pois assumimos que a solução era única. $\hat{\beta} = \beta^*$

No entanto, pode ser que o Lasso tenha várias soluções. Pelo lema 1 de arxiv.org/pdf/1206.0313.pdf , sabemos que todas essas soluções têm o mesmo -norm (e o mesmo valor mínimo, é claro). Definimos essa norma como a restrição para o e prosseguimos. $\ell 1$ $P_1$

Vamos denotar por o conjunto de soluções para , com . Vamos ter uma solução, . Então, nós temos esse e, por conseguinte, . Se para alguns (e, portanto, para todos eles), então , o que contradiz nossas suposições. Se para alguns então não é o conjunto de soluções para $S$ $P_2$ $\|\beta\|=b \mbox{ } \forall \beta \in S$ $P_1$ $\hat{\beta} \notin S$ $\|\hat{\beta}\| \leq \|\beta\| \forall \beta \in S$ $f(\hat{\beta}) \leq f(\beta) \forall \beta \in S$ $f(\hat{\beta}) = f(\beta)$ $\beta \in S$ $\hat{\beta} \in S$ $f(\hat{\beta}) < f(\beta)$ $\beta \in S$ $S$ $P_2$ . Portanto, toda solução para está em , ou seja, qualquer solução para também é uma solução para . Resta provar que o complementar também se aplica. $P_1$ $S$ $P_1$ $P_2$

— broncoAbierto
fonte