Pode aumentar quando

11

Se $\beta^*=\mathrm{arg\,min}_{\beta} \|y-X\beta\|^2_2+\lambda\|\beta\|_1$ , pode $\|\beta^*\|_2$ aumentar quando $\lambda$ aumenta?

Eu acho que isso é possível. Embora $\|\beta^*\|_1$ não aumente quando $\lambda$ aumenta (minha prova ), $\|\beta^*\|_2$ pode aumentar. A figura abaixo mostra uma possibilidade. Quando $\lambda$ aumenta, se $\beta^*$ viaja (linearmente) de $P$ para $Q$ , então $\|\beta^*\|_2$ aumenta enquanto $\|\beta^*\|_1$ diminui. Mas não sei como construir um exemplo concreto (ou seja, construir $X$ e $y$ ), para que o perfil de $\beta^*$ demonstre esse comportamento. Alguma ideia? Obrigado.

insira a descrição da imagem aqui

lasso

— ziyuang
fonte

10

A resposta é sim, e você tem uma prova gráfica em ali. $\ell_2$

Procure a definição de equivalência de normas de vetores. Você encontrará que que é a dimensão do vetor . Portanto, há espaço de manobra para a norma , em comparação com a norma .

‖ x ‖_{2} \leq ‖ x ‖_{1} \leq \sqrt{n} ‖ x ‖_{2},

$\|x\|_2 \leq \|x\|_1 \leq \sqrt{n}\|x\|_2,$

n

$n$

x

$x$

ℓ_{2}

$\ell_2$

ℓ_{1}

$\ell_1$

De fato, o problema que você deseja resolver pode ser indicado como:

Encontre tal que enquanto ao mesmo tempo $d$

‖ x + d ‖_{2} > ‖ x ‖_{2}

$\|x + d\|_2 > \|x\|_2$

‖ x + d ‖_{1} < ‖ x ‖_{1} .

$\|x + d\|_1 < \|x\|_1.$

Esquadre a primeira desigualdade, expanda e veja que e que, assumindo que e , obtemos da segunda desigualdade que devemos ter Qualquer que atenda a essas restrições aumentará a norma enquanto diminui a norma .

2 \sum_{i} x_{i} d_{i} > - \sum_{i} d_{i}^{2}

$2\sum_i x_id_i > -\sum_i d_i^2$

x_{i} \geq 0

$x_i\geq0$

x_{i} + d_{i} \geq 0

$x_i+d_i\geq0$

\sum_{i} d_{i} < 0.

$\sum_i d_i < 0.$

d

$d$

ℓ_{2}

$\ell_2$

ℓ_{1}

$\ell_1$

No seu exemplo, , e e $d\approx[-0.4, 0.3]^T$ $x:=P\approx[0.5, 0.6]^T$

\sum_{i} d_{i} \approx - 0.1 < 0,

$\sum_i d_i\approx-0.1<0,$

2 \sum_{i} P_{i} d_{i} \approx - 0.04 > - 0.25 \approx - \sum_{i} d_{i}^{2} .

$2\sum_i P_id_i\approx-0.04 > -0.25 \approx -\sum_i d_i^2.$

— Tommy L
fonte

Mas como isso está relacionado à construção do e ?

X

$X$

y

$y$

— ziyuang

3

Obrigado pela resposta de @ TommyL, mas sua resposta não é direta na construção de e . De alguma forma, "resolvo" isso sozinho. Primeiro, quando aumenta, não aumenta quando cada diminui monotonicamente. Isso acontece quando é ortonormal, no qual temos $X$ $y$ $\lambda$ $\|\beta^*\|_2$ $\beta^*_i$ $X$

β_{i}^{*} = s i g n (β_{i}^{L S}) (β_{i}^{L S} - λ)_{+}

$\beta^*_i=\mathrm{sign}(\beta_i^{\mathrm{LS}})(\beta_i^{\mathrm{LS}}-\lambda)_+$

Geometricamente, nessa situação, move-se perpendicularmente ao contorno da norma , portanto não pode aumentar. $\beta^*$ $\ell_1$ $\|\beta^*\|_2$

Na verdade, Hastie et al. mencionado no artigo A regressão estática e o laço monótono , uma condição necessária e suficiente da monotonicidade dos caminhos do perfil:

insira a descrição da imagem aqui

Na Seção 6 do artigo, eles construíram um conjunto de dados artificiais com base em funções de base linear por partes que violam a condição acima, mostrando a não monotonicidade. Mas se tivermos sorte, também podemos criar um conjunto de dados aleatórios demonstrando o comportamento semelhante, mas de uma maneira mais simples. Aqui está o meu código R:

library(glmnet)
set.seed(0)
N <- 10
p <- 15
x1 <- rnorm(N)
X <- mat.or.vec(N, p)
X[, 1] <- x1
for (i in 2:p) {X[, i] <- x1 + rnorm(N, sd=0.2)}
beta <- rnorm(p, sd=10)
y <- X %*% beta + rnorm(N, sd=0.01)
model <- glmnet(X, y, family="gaussian", alpha=1, intercept=FALSE)

Eu deliberadamente deixei as colunas de altamente correlacionadas (longe do caso ortonormal), e o verdadeiro tem grandes entradas positivas e negativas. Aqui está o perfil de (não surpreendentemente, apenas 5 variáveis estão ativadas): $X$ $\beta$ $\beta^*$

insira a descrição da imagem aqui

e a relação entre e : $\lambda$ $\|\beta^*\|_2$

insira a descrição da imagem aqui

Portanto, podemos ver que, por algum intervalo de , aumenta à medida que aumenta. $\lambda$ $\|\beta^*\|_2$ $\lambda$

— ziyuang
fonte