1) Você está indo na direção errada, invocando a dualidade diretamente. Pegar de
arg minβ:∥β∥1≤t∥y−Xβ∥22
para
arg minβ∥y−Xβ∥22+λ∥β∥1
você só precisa chamar os multiplicadores Lagrange. (Veja, por exemplo , a Seção 5.1 de [1])
Os LMs são frequentemente discutidos no contexto da dualidade ao ensiná-los, mas na prática você pode simplesmente mudar diretamente de um para o outro sem considerar o problema duplo.
Se você está interessado no problema duplo do laço, isso ocorreu nos slides 12 e 13 de [2]
2) O que você provavelmente já viu é a condição de estacionariedade KKT para o laço:
arg min12∥y−Xβ∥22+λ∥β∥1⟺−XT(y−Xβ^)+λs=0 for some s∈∂∥β^∥1
onde é chamado de subdiferencial da norma . (Esta é essencialmente apenas a condição "derivada padrão igual a zero no mínimo" do cálculo, mas ajustada para não diferenciá-la.)∂∥β∥1ℓ1
Conhecemos o subdiferencial de if então esta equação fornece uma solução exata de forma fechada para o laço, se conhecermos o suporte e o sinal da solução . Nomeadamente,|βi|=sign(βi)βi≠0
β^S^=(XTS^XS^)−1(XTS^y−λ∗sign(β^S^))
(Além disso: esta solução torna muito claro o efeito de "encolhimento" do laço (em comparação com o OLS).)
Obviamente, a parte mais difícil de resolver o laço é encontrar o suporte e os sinais da solução, portanto isso não ajuda muito na prática.
É, no entanto, uma construção teórica muito útil e pode ser usada para provar muitas propriedades agradáveis do laço; mais importante, permite-nos usar a técnica "testemunha dupla primal" para estabelecer condições sob as quais o laço recupera o conjunto "verdadeiro" de variáveis. Veja a Seção 11.4 de [3].
[1] S. Boyd e L. Vandenberghe. Otimização convexa. Disponível em https://web.stanford.edu/~boyd/cvxbook/bv_cvxbook.pdf
[2] http://www.stat.cmu.edu/~ryantibs/convexopt-F15/lectures/13-dual-corres.pdf.
[3] T. Hastie, R. Tibshirani, M. Wainwright. Aprendizado estatístico com escassez: o laço e as generalizações. Disponível em https://web.stanford.edu/~hastie/StatLearnSparsity_files/SLS_corrected_1.4.16.pdf