Aplicando condições de dualidade e KKT ao problema do LASSO


7

Estou tendo algumas dificuldades para entender como a dualidade leva à forma comum do problema do LASSO e à condição de Karush-Kuhn-Tucker chamada de folga complementar. Eu tenho duas perguntas:

  1. Sabemos que, dado um problema de otimização
    minxf(x)s.t.hi(x)0,i=1,,m

resolver isso é equivalente a resolver o problema duplo

maxλg(λ)s.t.λ0
com g(λ)=minλ{f(x)+i=1mλihi(x)}

No problema do LASSO, o principal é

||yXβ||22s.t.||β||1t

portanto, se meu entendimento estiver correto, para o problema duplo, devemos obter

g(λ)=minβ||yXβ||22+λ(||β||1t)

No entanto, o problema do LASSO é sempre especificado como

minβ||yXβ||22+λ||β||1

o que estou perdendo? Está relacionado à derivada de uma constante, que é nula?

  1. A segunda pergunta é: eu vi muitos autores apresentando a solução para o problema do LASSO apenas resolvendo a condição KKT da estacionariedade
    XT(yXβ)=λs

Entendo que, como o problema é convexo, as condições de viabilidade primária e dupla são atendidas, de qualquer maneira não vejo por que não verificamos a condição de folga complementar .

Respostas:


6

1) Você está indo na direção errada, invocando a dualidade diretamente. Pegar de

arg minβ:β1tyXβ22

para

arg minβyXβ22+λβ1

você só precisa chamar os multiplicadores Lagrange. (Veja, por exemplo , a Seção 5.1 de [1])

Os LMs são frequentemente discutidos no contexto da dualidade ao ensiná-los, mas na prática você pode simplesmente mudar diretamente de um para o outro sem considerar o problema duplo.

Se você está interessado no problema duplo do laço, isso ocorreu nos slides 12 e 13 de [2]

2) O que você provavelmente já viu é a condição de estacionariedade KKT para o laço:

arg min12yXβ22+λβ1XT(yXβ^)+λs=0 for some sβ^1

onde é chamado de subdiferencial da norma . (Esta é essencialmente apenas a condição "derivada padrão igual a zero no mínimo" do cálculo, mas ajustada para não diferenciá-la.)β11

Conhecemos o subdiferencial de if então esta equação fornece uma solução exata de forma fechada para o laço, se conhecermos o suporte e o sinal da solução . Nomeadamente,|βi|=sign(βi)βi0

β^S^=(XS^TXS^)1(XS^Tyλsign(β^S^))

(Além disso: esta solução torna muito claro o efeito de "encolhimento" do laço (em comparação com o OLS).)

Obviamente, a parte mais difícil de resolver o laço é encontrar o suporte e os sinais da solução, portanto isso não ajuda muito na prática.

É, no entanto, uma construção teórica muito útil e pode ser usada para provar muitas propriedades agradáveis ​​do laço; mais importante, permite-nos usar a técnica "testemunha dupla primal" para estabelecer condições sob as quais o laço recupera o conjunto "verdadeiro" de variáveis. Veja a Seção 11.4 de [3].

[1] S. Boyd e L. Vandenberghe. Otimização convexa. Disponível em https://web.stanford.edu/~boyd/cvxbook/bv_cvxbook.pdf

[2] http://www.stat.cmu.edu/~ryantibs/convexopt-F15/lectures/13-dual-corres.pdf.

[3] T. Hastie, R. Tibshirani, M. Wainwright. Aprendizado estatístico com escassez: o laço e as generalizações. Disponível em https://web.stanford.edu/~hastie/StatLearnSparsity_files/SLS_corrected_1.4.16.pdf

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.