Relação entre LASSO e

Meu entendimento da regressão do LASSO é que os coeficientes de regressão são selecionados para resolver o problema de minimização:

min_{β} ‖ y - X β ‖_{2}^{2} s . t . ‖ β ‖_{1} \leq t

$\min_\beta \|y - X \beta\|_2^2 \ \\s.t. \|\beta\|_1 \leq t$

Na prática, isso é feito usando um multiplicador de Lagrange, tornando o problema para resolver

min_{β} ‖ y - X β ‖_{2}^{2} + λ ‖ β ‖_{1}

$\min_\beta \|y - X \beta\|_2^2 + \lambda \|\beta\|_1$

Qual é a relação entre $\lambda$ e $t$ ? A Wikipedia simplesmente afirma que é "dependente de dados".

Por que eu me importo? Em primeiro lugar por curiosidade intelectual. Mas também estou preocupado com as conseqüências para selecionar $\lambda$ por validação cruzada.

Especificamente, se estou fazendo validação cruzada n vezes, encaixo n modelos diferentes em n partições diferentes dos meus dados de treinamento. Em seguida, comparo a precisão de cada um dos modelos nos dados não utilizados para um dado $\lambda$ . Mas o mesmo $\lambda$ implica uma restrição diferente ( $t$ ) para diferentes subconjuntos dos dados (ou seja, $t=f(\lambda)$ é "dependente de dados").

Não é o problema de validação cruzada que realmente quero resolver para encontrar o $t$ que oferece o melhor trade-off de precisão de viés?

Posso ter uma idéia aproximada do tamanho desse efeito na prática calculando para cada divisão de validação cruzada e e observando a distribuição resultante. Em alguns casos, a restrição implícita ( ) pode variar substancialmente entre meus subconjuntos de validação cruzada. Onde, substancialmente, quero dizer o coeficiente de variação em . $\|\beta\|_1$ $\lambda$ $t$ $t>>0$

— ConstantAmateur
fonte

Voto a favor para cancelar o voto negativo inexplicável. A questão está muito além da minha experiência, mas parece razoavelmente formulada.

— mkt - Restabelece Monica

Esta é a solução padrão para regressão de crista :

β = {(X^{'} X + λ I)}^{- 1} X^{'} y

$\beta = \left( X'X + \lambda I \right) ^{-1} X'y$

Também sabemos que , então deve ser verdade que $\| \beta \| = t$

‖ {(X^{'} X + λ I)}^{- 1} X^{'} y ‖ = t

$\| \left( X'X + \lambda I \right) ^{-1} X'y \| = t$ .

o que não é fácil de resolver para . $\lambda$

Sua melhor aposta é continuar fazendo o que está fazendo: calcule na mesma subamostra dos dados em vários valores . $t$ $\lambda$

— shadowtalker
fonte