O limite do estimador de regressão da crista de “variância unitária” quando

Considere a regressão de crista com uma restrição adicional exigindo que tenha soma unitária dos quadrados (equivalentemente, variação unitária); se necessário, pode-se supor que possui soma unitária dos quadrados: $\hat{\mathbf y}$ $\mathbf y$

{\hat{β}}_{λ}^{*} = \arg min {‖ y - X β ‖^{2} + λ ‖ β ‖^{2}} s.t. ‖ X β ‖^{2} = 1.

$\hat{\boldsymbol\beta}_\lambda^* = \arg\min\Big\{\|\mathbf y - \mathbf X \boldsymbol \beta\|^2+\lambda\|\boldsymbol\beta\|^2\Big\} \:\:\text{s.t.}\:\: \|\mathbf X \boldsymbol\beta\|^2=1.$

Qual é o limite de $\hat{\boldsymbol\beta}_\lambda^*$ quando $\lambda\to\infty$ ?

Aqui estão algumas afirmações que acredito serem verdadeiras:

Quando $\lambda=0$ , existe uma solução explícita pura: use o estimador OLS $\hat{\boldsymbol\beta}_0=(\mathbf X^\top \mathbf X)^{-1}\mathbf X^\top \mathbf y$ e normalizá-lo para satisfazer a restrição (pode-se ver isso adicionando um multiplicador de Lagrange e diferenciar):
${\hat{β}}_{0}^{*} = {\hat{β}}_{0} / ‖ X {\hat{β}}_{0} ‖ .$ $\hat{\boldsymbol\beta}_0^* = \hat{\boldsymbol\beta}_0 \big/ \|\mathbf X\hat{\boldsymbol\beta}_0\|.$
Em geral, a solução é
${\hat{β}}_{λ}^{*} = ((1 + μ) X^{⊤} X + λ I)^{- 1} X^{⊤} y with μ needed to satisfy the constraint .$ $\hat{\boldsymbol\beta}_\lambda^*=\big((1+\mu)\mathbf X^\top \mathbf X + \lambda \mathbf I\big)^{-1}\mathbf X^\top \mathbf y\:\:\text{with $\mu$ needed to satisfy the constraint}.$ Não vejo uma solução de formulário fechado quando $\lambda >0$ . Parece que a solução é equivalente ao estimador RR usual com alguns $\lambda^*$ normalizados para satisfazer a restrição, mas não vejo uma fórmula fechada para $\lambda^*$ .
Quando $\lambda\to \infty$ , o estimador RR usual
${\hat{β}}_{λ} = (X^{⊤} X + λ I)^{- 1} X^{⊤} y$ $\hat{\boldsymbol\beta}_\lambda=(\mathbf X^\top \mathbf X + \lambda \mathbf I)^{-1}\mathbf X^\top \mathbf y$ obviamente converge para zero, mas sua direção $\hat{\boldsymbol\beta}_\lambda \big/ \|\hat{\boldsymbol\beta}_\lambda\|$ converge para a direção de $\mathbf X^\top \mathbf y$ , também conhecido como o primeiro componente de mínimos quadrados parciais (PLS).

As declarações (2) e (3) juntas me fazem pensar que talvez $\hat{\boldsymbol\beta}_\lambda^*$ também converja para o normalizado adequadamente $\mathbf X^\top \mathbf y$ , mas não tenho certeza se isso está correto e não consegui me convencer de nenhuma maneira.

— ameba diz Restabelecer Monica
fonte

Respostas:

Uma interpretação geométrica

O estimador descrito na pergunta é o multiplicador de Lagrange equivalente ao seguinte problema de otimização:

minimize f (β) subject to g (β) \leq t and h (β) = 1

$\text{minimize $f(\beta)$ subject to $g(\beta) \leq t$ and $h(\beta) = 1$ }$

\begin{aligned} f (β) & = ‖ y - X β ‖^{2} \\ g (β) & = ‖ β ‖^{2} \\ h (β) & = ‖ X β ‖^{2} \end{aligned}

$\begin{align} f(\beta) &= \lVert y-X\beta \lVert^2 \\ g(\beta) &= \lVert \beta \lVert^2\\ h(\beta) &= \lVert X\beta \lVert^2 \end{align}$

que pode ser visto, geometricamente, como encontrar o menor elipsóide que toca a interseção da esfera elipsóide $f(\beta)=\text{RSS }$ $g(\beta) = t$ $h(\beta)=1$

Comparação com a visualização de regressão de crista padrão

Em termos de uma vista geométrica, isso altera a vista antiga (para regressão padrão da crista) do ponto em que um esferóide (erros) e uma esfera ( ) se tocam $\|\beta\|^2=t$ . Em uma nova visão, procuramos o ponto em que o esferóide (erros) toca uma curva (norma beta restrita por ) . A única esfera (azul na imagem esquerda) muda para uma figura de dimensão inferior devido à interseção com a restrição . $\|X\beta\|^2=1$ $\|X\beta\|=1$

No caso bidimensional, isso é simples de visualizar.

Quando sintonizar o parâmetro , então, mudar o comprimento relativo das esferas azuis / vermelho ou os tamanhos relativos dos e (Na teoria de multiplicadores de Lagrange provavelmente há uma maneira elegante de formal e descreva exatamente que isso significa que para cada como função de , ou invertida, é uma função monótona.Mas imagino que você possa ver intuitivamente que a soma dos resíduos quadráticos só aumenta quando diminuímos .) $t$ $f(\beta)$ $g(\beta)$ $t$ $\lambda$ $||\beta||$

A solução para é como você argumentou em uma linha entre 0 e $\beta_\lambda$ $\lambda=0$ $\beta_{LS}$

A solução para está (de fato, como você comentou) nos carregamentos do primeiro componente principal. Este é o ponto em que é o menor para . É o ponto em que o círculo toca na elipse em um único ponto. $\beta_\lambda$ $\lambda \to \infty$ $\lVert \beta \rVert^2$ $\lVert \beta X \rVert^2 = 1$ $\lVert \beta \rVert^2=t$ $|X\beta|=1$

Nesta vista 2-d, as arestas da interseção da esfera esferóide são pontos. Em múltiplas dimensões, estas serão curvas $\lVert \beta \rVert^2 =t$ $\lVert \beta X \rVert^2 = 1$

(I imaginado que estas curvas seria elipses mas eles são mais complicados. Você poderia imaginar o elipsóide sendo cortada pela bola como alguns tipo de frustum elipsóide, mas com bordas que não são simples elipses) $\lVert X \beta \rVert^2 = 1$ $\lVert \beta \rVert^2 \leq t$

Em relação ao limite $\lambda \to \infty$

No início (edições anteriores), escrevi que haverá alguns limitadores acima dos quais todas as soluções são iguais (e residem no ponto ). Mas esse não é o caso $\lambda_{lim}$ $\beta^*_\infty$

Considere a otimização como um algoritmo LARS ou descida de gradiente. Se, em qualquer ponto houver uma direção na qual possamos alterar o , de forma que o termo de penalidade aumente menos que o termo SSR diminua, você não estará no mínimo . $\beta$ $\beta$ $|\beta|^2$ $|y-X\beta|^2$

Na regressão normal da crista, você tem uma inclinação zero (em todas as direções) para no ponto . Portanto, para todos os finitos, a solução não pode ser (já que uma etapa infinitesimal pode ser feita para reduzir a soma dos resíduos quadrados sem aumentar a penalidade). $|\beta|^2$ $\beta=0$ $\lambda$ $\beta = 0$
Para o LASSO, isso não é o mesmo, pois: a penalidade é (portanto, não é quadrática com inclinação zero). Por isso, o LASSO terá algum valor limitador acima do qual todas as soluções são zero, porque o termo da penalidade (multiplicado por ) aumentará mais do que a soma residual dos quadrados diminui. $\lvert \beta \rvert_1$ $\lambda_{lim}$ $\lambda$
Para a crista restringida, você obtém o mesmo que a regressão regular da crista. Se você alterar o partir de , essa alteração será perpendicular a (o será perpendicular à superfície da elipse ) e pode ser alterado em uma etapa infinitesimal sem alterar o termo da penalidade, mas diminuindo a soma dos resíduos ao quadrado. Assim, para qualquer finito, o ponto não pode ser a solução. $\beta$ $\beta^*_\infty$ $\beta$ $\beta^*_\infty$ $|X\beta|=1$ $\beta$ $\lambda$ $\beta^*_\infty$

Notas adicionais sobre o limite $\lambda \to \infty$

O limite de regressão de crista usual para até o infinito corresponde a um ponto diferente na regressão de crista restrita. Esse limite "antigo" corresponde ao ponto em que é igual a -1. Em seguida, a derivada da função Lagrange no problema normalizado $\lambda$ $\mu$

$2 (1 + μ) X^{T} X β + 2 X^{T} y + 2 λ β$ $2 (1+\mu) X^{T}X \beta + 2 X^T y + 2 \lambda \beta$ corresponde a uma solução para a derivada da função Lagrange no problema padrão

$2 X^{T} X β^{'} + 2 X^{T} y + 2 \frac{λ}{(1 + μ)} β^{'} with β^{'} = (1 + μ) β$ $2 X^{T}X \beta^\prime + 2 X^T y + 2 \frac{\lambda}{(1+\mu)} \beta^\prime \qquad \text{with $\beta^\prime = (1+\mu)\beta$}$

Escrito por StackExchangeStrike

— Sextus Empiricus
fonte

+1. Muito obrigado, isso é super útil! Vou precisar de algum tempo para pensar.

— Ameba diz Reinstate Monica

Vale ressaltar que os elipsóides vermelho e preto têm a mesma forma: é por isso que o ponto em que tocam está na linha que liga seus centros. Prova gráfica agradável do ponto 1 da minha pergunta.

— Ameba diz Reinstate Monica

Estou tentando entender onde no seu desenho está o beta que corresponde ao estimador de crista com infinito lambda, normalizado para ficar na elipse negra. Eu acho que está em algum lugar entre e (usando minha notação) - dois pontos marcados com círculos abertos pretos no seu desenho. Portanto, se fizermos regressão em cadeia e normalizarmos a solução e aumentarmos o lambda de 0 ao infinito, provavelmente nos levará pelo mesmo arco, mas não por todo o caminho até PC1. Em vez disso, inserir explicitamente a restrição faz com que as soluções continuem até o PC1.

β_{0}^{*}

$\beta_0^*$

β_{\infty}^{*}

$\beta_\infty^*$

‖ X β ‖ = 1

$\|X\beta\|=1$

— Ameba diz Reinstate Monica

+5 (iniciei uma recompensa que felizmente atribuirei à sua resposta). Também publiquei minha própria resposta porque fiz algumas derivações algébricas e isso foi demais para acrescentar à pergunta. Não estou convencido pela sua conclusão de que haverá algum finito após o qual a solução não será mais alterada e será fornecida pelo PC1. Não o vejo algebricamente, e não entendo bem o seu argumento de por que ele deveria existir. Vamos tentar descobrir.

λ_{lim}

$\lambda_\text{lim}$

— Ameba diz Reinstate Monica

@amoeba, você estava certo sobre o finito não existente. Argumentei muito intuitivamente e pulei rapidamente de uma condição específica para a regressão regular da cordilheira para a regressão restrita da cordilheira. RR regular tem uma inclinação zero (em todas as direções) para no ponto . Eu pensei que (desde ) você não consegue isso com a regressão restrita. No entanto, porque está restrito ao elipsóide você não pode 'mover' em todas as direções.

λ_{lim}

$\lambda_{\lim}$

| β |^{2}

$|\beta|^2$

β = 0

$\beta = 0$

β_{\infty}^{*} \neq 0

$\beta^*_\infty \neq 0$

β

$\beta$

| X β | = 1

$|X\beta| =1$

β

$\beta$

— Sextus Empiricus

Esta é uma contrapartida algébrica da bela resposta geométrica de @ Martijn.

Primeiro de tudo, o limite de quando for muito simples de obter: no limite, o primeiro termo na função de perda se torna insignificante e, portanto, pode ser desconsiderado. O problema de otimização se torna que é o primeiro componente principal de

{\hat{β}}_{λ}^{*} = \arg min {‖ y - X β ‖^{2} + λ ‖ β ‖^{2}} s.t. ‖ X β ‖^{2} = 1

$\hat{\boldsymbol\beta}_\lambda^* = \arg\min\Big\{\|\mathbf y - \mathbf X \boldsymbol \beta\|^2+\lambda\|\boldsymbol\beta\|^2\Big\} \:\:\text{s.t.}\:\: \|\mathbf X \boldsymbol\beta\|^2=1$

λ \to \infty

$\lambda\to\infty$

lim_{λ \to \infty} {\hat{β}}_{λ}^{*} = {\hat{β}}_{\infty}^{*} = \underset{‖ X β ‖^{2} = 1}{a r g m i n} ‖ β ‖^{2} \sim \underset{‖ β ‖^{2} = 1}{a r g m a x} ‖ X β ‖^{2},

$\lim_{\lambda\to\infty}\hat{\boldsymbol\beta}_\lambda^* = \hat{\boldsymbol\beta}_\infty^* = \operatorname*{arg\,min}_{\|\mathbf X \boldsymbol\beta\|^2=1}\|\boldsymbol\beta\|^2 \sim \operatorname*{arg\,max}_{\| \boldsymbol\beta\|^2=1}\|\mathbf X\boldsymbol\beta\|^2,$

X

$\mathbf X$ (dimensionado adequadamente). Isso responde à pergunta.

Agora vamos considerar a solução para qualquer valor de que me referi no ponto 2 da minha pergunta. Adicionando à função de perda o multiplicador Lagrange e diferenciando, obtemos $\lambda$ $\mu(\|\mathbf X\boldsymbol\beta\|^2-1)$

{\hat{β}}_{λ}^{*} = ((1 + μ) X^{⊤} X + λ I)^{- 1} X^{⊤} y with μ needed to satisfy the constraint .

$\hat{\boldsymbol\beta}_\lambda^*=\big((1+\mu)\mathbf X^\top \mathbf X + \lambda \mathbf I\big)^{-1}\mathbf X^\top \mathbf y\:\:\text{with $\mu$ needed to satisfy the constraint}.$

Como essa solução se comporta quando cresce de zero ao infinito? $\lambda$

Quando , obtemos uma versão em escala da solução OLS: $\lambda=0$
${\hat{β}}_{0}^{*} \sim {\hat{β}}_{0} .$ $\hat{\boldsymbol\beta}_0^* \sim \hat{\boldsymbol\beta}_0.$
Para valores positivos mas pequenos de , a solução é uma versão em escala de algum estimador de crista: $\lambda$
${\hat{β}}_{λ}^{*} \sim {\hat{β}}_{λ^{*}} .$ $\hat{\boldsymbol\beta}_\lambda^* \sim \hat{\boldsymbol\beta}_{\lambda^*}.$
Quando, o valor de necessário para satisfazer a restrição é . Isso significa que a solução é uma versão em escala do primeiro componente PLS (o que significa que do estimador de crista correspondente é ): $\lambda=\|\mathbf X\mathbf X^\top \mathbf y\|$ $(1+\mu)$ $0$ $\lambda^*$ $\infty$
${\hat{β}}_{‖ X X^{⊤} y ‖}^{*} \sim X^{⊤} y .$ $\hat{\boldsymbol\beta}_{\|\mathbf X\mathbf X^\top \mathbf y\|}^* \sim \mathbf X^\top \mathbf y.$
Quando se torna maior que isso, o termo necessário se torna negativo. A partir de agora, a solução é uma versão em escala de um estimador de pseudo-crista com parâmetro de regularização negativo ( crista negativa ). Em termos de direções, agora estamos passando pela regressão de crista com infinita lambda. $\lambda$ $(1+\mu)$
Quando , o termo chegará a zero (ou divergirá para infinito), a menos que que seja o maior valor singular de . Isso tornará finito e proporcional ao primeiro eixo principal . Precisamos definir para satisfazer a restrição. Assim, obtemos esse $\lambda\to\infty$ $\big((1+\mu)\mathbf X^\top \mathbf X + \lambda \mathbf I\big)^{-1}$ $\mu = -\lambda/ s^2_\mathrm{max} + \alpha$ $s_\mathrm{max}$ $\mathbf X=\mathbf{USV}^\top$ $\hat{\boldsymbol\beta}_\lambda^*$ $\mathbf V_1$ $\mu = -\lambda/ s^2_\mathrm{max} + \mathbf U_1^\top \mathbf y -1$
${\hat{β}}_{\infty}^{*} \sim V_{1} .$ $\hat{\boldsymbol\beta}_\infty^* \sim \mathbf V_1.$

No geral, vemos que esse problema de minimização restrita abrange versões de variação de unidade do OLS, RR, PLS e PCA no seguinte espectro:

OLS \to RR \to PLS \to negative RR \to PCA

$\boxed{\text{OLS} \to \text{RR} \to \text{PLS} \to \text{negative RR} \to \text{PCA}}$

Isso parece ser equivalente a uma estrutura de quimiometria obscura (?) Chamada "regressão contínua" (consulte https://scholar.google.de/scholar?q="continuum+regression " , em particular Stone & Brooks 1990, Sundberg 1993, Björkström & Sundberg 1999, etc.), que permite a mesma unificação, maximizando um critério ad hocObviamente, isso gera OLS dimensionado quando , PLS quando , PCA quando e pode ser mostrado para gerar RR dimensionado para

T = {corr}^{2} (y, X β) \cdot {Var}^{γ} (X β) s.t. ‖ β ‖ = 1.

$\mathcal T = \operatorname{corr}^2(\mathbf y, \mathbf X \boldsymbol\beta)\cdot \operatorname{Var}^\gamma(\mathbf X\boldsymbol\beta) \;\;\text{s.t.}\;\;\|\boldsymbol\beta\|=1.$

γ = 0

$\gamma=0$

γ = 1

$\gamma=1$

γ \to \infty

$\gamma\to\infty$

0 < γ < 1

$0<\gamma<1$

1 < γ < \infty

$1<\gamma<\infty$ , ver Sundberg 1993.

Apesar de ter um pouco de experiência com RR / PLS / PCA / etc, devo admitir que nunca ouvi falar em "regressão contínua" antes. Também devo dizer que não gosto deste termo.

Um esquema que fiz com base no do @ Martijn:

Atualização: Figura atualizada com o caminho do cume negativo, muito obrigado a @Martijn por sugerir a aparência. Veja minha resposta em Noções básicas sobre regressão de crista negativa para obter mais detalhes.

— ameba diz Restabelecer Monica
fonte

A "regressão contínua" parece fazer parte de uma categoria surpreendentemente ampla de técnicas destinadas a unificar PLS e PCA dentro de uma estrutura comum. Eu nunca tinha ouvido falar sobre isso, aliás, até pesquisar cume negativo (eu forneço um link para o artigo de Bjorkstron & Sundberg, 1999, no primeiro comentário da pergunta do cume negativo ao qual você vincula), embora pareça ser amplamente discutido em a literatura quimiométrica. Deve haver alguma razão histórica pela qual ela se desenvolveu aparentemente isolada de outros campos da estatística. (1/3)

— Ryan Simmons

Um artigo que você pode querer ler é de Jong et al. (2001) . Sua formulação de "PLS canônico" parece, em um rápido relance, ser equivalente à sua, embora eu admita que ainda não comparei rigorosamente a matemática (eles também fornecem uma revisão de várias outras generalizações de PLS-PCA na mesma linha). Mas pode ser interessante ver como eles explicaram o problema. (2/3)

— Ryan Simmons

Caso esse link morra, a citação completa é: Sijmen de Jong, Barry M. Wise, N. Lawrence Ricker. "Mínimos quadrados parciais canônicos e regressão de potência contínua". Journal of Chemometrics, 2001; 15: 85-100. doi.org/10.1002/… (3/3)

— Ryan Simmons

ah, ok, então e vão para infinito, mas a proporção permanece . De qualquer forma, o caminho de regressão da crista negativa deve estar no setor (negativo) entre os vetores PLS e PCA, de modo que sua projeção na elipseestá entre os pontos PLS e PCA. (a norma vai ao infinito faz sentido como os vai para o infinito, bem, então o caminho continua até o canto inferior direito, inicialmente tangente, negativo, PLS e, eventualmente, a PCA)

λ^{*}

$\lambda^*$

1 + μ^{*}

$1+\mu^*$

\pm

$\pm$

s_{m a x}^{2}

$s_{max}^2$

| X β = 1 |

$|X\beta=1|$

μ

$\mu$

— Sexto Empírico

Isso adicionaria à visualização. Eu imagino os três pontos atuais do caminho RR (onde o círculo e o elipsóide se tocam) continuando para baixo à direita e, eventualmente, no infinito, o círculo e o elipsóide deve 'tocar' na direção do local onde o círculo toca o elipsóide

| β |^{2} = t_{\infty}

$|\beta|^2=t_{\infty}$

| X (β - \hat{β}) |^{2} = R S S

$|X (\beta - \hat\beta)|^2 =RSS$

| β |^{2} = t_{p c a}

$|\beta|^2=t_{pca}$

| X β |^{2} = 1

$|X \beta|^2 =1$

— Sextus Empiricus

O limite do estimador de regressão da crista de “variância unitária” quando

Uma interpretação geométrica

Comparação com a visualização de regressão de crista padrão

Em relação ao limiteλ→∞λ→∞\lambda \to \infty

Notas adicionais sobre o limiteλ→∞λ→∞\lambda \to \infty

Em relação ao limite $\lambda \to \infty$

Notas adicionais sobre o limite $\lambda \to \infty$