Como a regressão de Ridge ou Lasso realmente funciona?

Pergunta muito básica aqui, mas eu gostaria de entender (não matematicamente) como o fato de adicionar uma "penalidade" (soma do coeficiente ao quadrado. Vezes um escalar) à soma residual do quadrado pode reduzir grandes coeficientes? obrigado !

regression least-squares regularization

— TmSmth
fonte

Para uma intuição gráfica / visual, dê uma olhada neles: stats.stackexchange.com/questions/350046/… , stats.stackexchange.com/questions/351631/…

— Xavier Bourret Sicotte

Como sua representação "penalizada" do problema de minimização é apenas a forma de intervalo de um problema de otimização de restrição:

Suponha variáveis centralizadas. Em ambos os casos, laço e cordilheira, sua função de destino irrestrita é a soma usual de resíduos quadrados; ou seja, dado $p$ regressores que você minimiza: over all .

R S S (β) = \sum_{i = 1}^{n} (y_{i} - (x_{i, 1} β_{1} + \dots + x_{i, p} β_{p}))^{2} .

$RSS(\boldsymbol{\beta}) = \sum_{i=1}^n (y_i-(x_{i,1}\beta_1 +\dots +x_{i,p}\beta_p))^2.$

β = (β_{1}, \dots, β_{p})

$\boldsymbol{\beta} =(\beta_1,\dots, \beta_p)$

Agora, no caso de uma regressão de cume, você minimiza o modo que por algum valor de . Para valores pequenos de , será impossível derivar a mesma solução que no cenário quadrado mínimo padrão; nesse caso, você apenas minimiza o - Pense em seguida, em somente a solução possível pode ser . $RSS(\boldsymbol{\beta})$

\sum_{i = 1}^{p} β_{p}^{2} \leq t_{r i d g e},

$\sum_{i=1}^p\beta_p^2 \leq t_{ridge},$

t_{r i d g e} \geq 0

$t_{ridge}\geq 0$

t_{r i d g e}

$t_{ridge}$

R S S (β)

$RSS(\boldsymbol{\beta})$

t_{r i d g e} = 0

$t_{ridge}=0$

β_{1} \equiv \dots \equiv β_{p} = 0

$\beta_1\equiv \dots \equiv \beta_p = 0$

Por outro lado, no caso do laço, você minimiza o sob a restrição para algum valor de . $RSS(\boldsymbol{\beta})$

\sum_{i = 1}^{p} | β_{p} | \leq t_{l a s s o},

$\sum_{i=1}^p|\beta_p| \leq t_{lasso},$

t_{l a s s o} \geq 0

$t_{lasso}\geq 0$

Ambos os problemas de otimização restritos podem ser equivalentemente forumlated em termos de um problema de otimização irrestrito, ou seja, para o laço: você pode minimizar de forma equivalente

\sum_{i = 1}^{n} (y_{i} - (x_{i, 1} β_{1} + \dots + x_{i, p} β_{p}))^{2} + λ_{l a s s o} \sum_{i = 1}^{p} | β_{p} | .

$\sum_{i=1}^n (y_i-(x_{i,1}\beta_1 +\dots +x_{i,p}\beta_p))^2 + \lambda_{lasso}\sum_{i=1}^p|\beta_p|.$

— BloXX
fonte

Obrigado, vou ter que me aprofundar na parte "restrito a irrestrito", mas entendi a idéia #

— TmSmth