A prova de encolhimento de coeficientes usando regressão de crista através de "decomposição espectral"

Eu entendi como a regressão da crista reduz os coeficientes em direção a zero geometricamente. Além disso, sei como provar isso no "Caso Ortonormal" especial, mas estou confuso de como isso funciona no caso geral via "Decomposição espectral".

— jeza
fonte

Você declarou que está confuso, mas qual é a sua pergunta?

— whuber

A questão parece pedir uma demonstração de que a regressão de cume reduz as estimativas do coeficiente para zero, usando uma decomposição espectral. A decomposição espectral pode ser entendida como uma conseqüência fácil da Decomposição de Valor Singular (SVD). Portanto, este post começa com SVD. Explica-o em termos simples e depois ilustra-o com aplicações importantes. Em seguida, fornece a demonstração (algébrica) solicitada. (A álgebra, é claro, é idêntica à demonstração geométrica; apenas é apresentada em um idioma diferente.)

A fonte original desta resposta pode ser encontrada nas minhas notas do curso de regressão . Esta versão corrige alguns erros menores.

O que é o SVD

Qualquer matriz , com , pode ser escrita onde $n\times p$ $X$ $p \le n$

X = U D V^{'}

$X = UDV^\prime$

é umamatriz . $U$ $n\times p$
- As colunas de têm comprimento . $U$ $1$
- As colunas de são mutuamente ortogonais. $U$
- Eles são chamados os principais componentes de . $X$
é um matriz. $V$ $p \times p$
- As colunas de têm comprimento . $V$ $1$
- As colunas de são mutuamente ortogonais. $V$
- Isso faz de uma rotação de . $V$ $\mathbb{R}^p$
é umamatriz diagonal . $D$ $p \times p$
- Os elementos diagonais não são negativos. Estes são os valores singulares de . $d_{11}, d_{22}, \ldots, d_{pp}$ $X$
- Se desejarmos, podemos ordená-los do maior para o menor.

Os critérios (1) e (2) afirmam que e são matrizes ortonormais . Eles podem ser resumidos ordenadamente pelas condições $U$ $V$

U^{'} U = 1_{p}, V^{'} V = 1_{p} .

$U^\prime U = 1_p,\ V^\prime V = 1_p.$

Como conseqüência (que representa uma rotação), também. Isso será usado na derivação de regressão de cume abaixo. $V$ $VV^\prime = 1_p$

O que isso faz por nós

Pode simplificar fórmulas. Isso funciona tanto algebricamente quanto conceitualmente. Aqui estão alguns exemplos.

As equações normais

Considere a regressão onde, como sempre, os são independentes e distribuídos identicamente de acordo com uma lei que tem expectativa zero e variância finita . A solução de mínimos quadrados através da equações normais é A aplicação do SVD e a simplificação da confusão algébrica resultante (o que é fácil) fornecem uma boa visão: $y = X\beta + \varepsilon$ $\varepsilon$ $\sigma^2$

\hat{β} = (X^{'} X)^{- 1} X^{'} y .

$\hat\beta = (X^\prime X)^{-1} X^\prime y.$

(X^{'} X)^{- 1} X^{'} = ((você D V^{'})^{'} (você D V^{'}))^{- 1} (você D V^{'})^{'} = (V D {você}^{'} você D V^{'})^{- 1} (V D {você}^{'}) = V D^{- 2} V^{'} V D {você}^{'} = V D^{- 1} {você}^{'} .

$(X^\prime X)^{-1} X^\prime = ((UDV^\prime)^\prime (UDV^\prime))^{-1} (UDV^\prime)^\prime \\= (VDU^\prime U D V^\prime)^{-1} (VDU^\prime) = VD^{-2}V^\prime VDU^\prime = VD^{-1}U^\prime.$

A única diferença entre isso e é que os recíprocos dos elementos de são usados! Em outras palavras, a "equação" é resolvida "invertendo" : essa pseudo-inversão desfaz as rotações e (apenas transpondo-as) e desfaz a multiplicação (representada por ) separadamente em cada princípio direção. $X^\prime = VDU^\prime$ $D$ $y=X\beta$ $X$ $U$ $V^\prime$ $D$

Para referência futura, aviso que "rodada" estimativas são combinações lineares de "rodada" respostas . Os coeficientes são inversos dos elementos diagonais (positivos) de , iguais a . $V^\prime \hat\beta$ $U^\prime y$ $D$ $d_{ii}^{-1}$

Covariância das estimativas do coeficiente

Recorde-se que a covariância dos estimativas é Usando o SVD, isso se torna Em outras palavras, a covariância age como a de variáveis ortogonais , cada uma com variações

Cov (\hat{β}) = σ^{2} (X^{'} X)^{- 1} .

$\text{Cov}(\hat\beta) = \sigma^2(X^\prime X)^{-1}.$

σ^{2} (V D^{2} V^{'})^{- 1} = σ^{2} V D^{- 2} V^{'} .

$\sigma^2(V D^2 V^\prime)^{-1} = \sigma^2 V D^{-2} V^\prime.$

k

$k$

d_{i i}^{2}

$d^2_{ii}$ , que foram rotacionados em

R^{k}

$\mathbb{R}^k$

A matriz Hat

A matriz do chapéu é Por meio do resultado anterior, podemos reescrevê-lo comoSimples!

H = X (X^{'} X)^{- 1} X^{'} .

$H = X(X^\prime X)^{-1} X^\prime.$

H = (você D V^{'}) (V D^{- 1} {você}^{'}) = você {você}^{'} .

$H = (UDV^\prime)(VD^{-1}U^\prime) = UU^\prime.$

Análise própria (decomposição espectral)

X^{'} X = V D {você}^{'} você D V^{'} = V D^{2} V^{'}

$X^\prime X = VDU^\prime U D V^\prime = VD^2V^\prime$

X X^{'} = você D V^{'} V D {você}^{'} = você D^{2} {você}^{'},

$XX^\prime = UDV^\prime VDU^\prime = UD^2U^\prime,$

$X^\prime X$ $XX^\prime$
$V$ $X^\prime X$
$U$ $X X^\prime$

O SVD pode diagnosticar e resolver problemas de colinearidade.

Aproximando os regressores

$UDV^\prime$ $U$ $y$

Regressão de Ridge

Deixe as colunas de $X$ $y$ $X$ $\lambda \gt 0$

\begin{aligned} {\hat{β}}_{R} & = (X^{'} X + λ)^{- 1} X^{'} y \\ = (V D^{2} V^{'} + λ 1_{p})^{- 1} V D {você}^{'} y \\ = (V D^{2} V^{'} + λ V V^{'})^{- 1} V D {você}^{'} y \\ = (V (D^{2} + λ) V^{'})^{- 1} V D {você}^{'} y \\ = V (D^{2} + λ)^{- 1} V^{'} V D {você}^{'} y \\ = V (D^{2} + λ)^{- 1} D {você}^{'} y . \end{aligned}

$\begin{aligned}\hat\beta_R &= (X^\prime X + \lambda)^{-1}X^\prime y \\ &= (VD^2V^\prime + \lambda\,1_p)^{-1}VDU^\prime y \\ &= (VD^2V^\prime + \lambda V V^\prime)^{-1}VDU^\prime y \\ &= (V(D^2 + \lambda)V^\prime)^{-1} VDU^\prime y \\ &= V(D^2+\lambda)^{-1}V^\prime V DU^\prime y \\ &= V(D^2 + \lambda)^{-1} D U^\prime y.\end{aligned}$

$\hat\beta$ $D^{-1} = D^{-2}D$ $(D^2+\lambda)^{-1}D$ $D^2/(D^2+\lambda)$ $\lambda \gt 0$

$V^\prime\hat\beta_R$ $U^\prime y$ $d_{ii}^{-1}$ $d_{ii}^2/(d_{ii}^2 + \lambda)$ $\lambda$ $\hat\beta_R$

$d_{ii}^{-1}$

— whuber
fonte

@Glen_b Esse é um bom ponto: eu precisava ser explícito sobre qual fração estava considerando! Eu vou consertar isso.

— whuber

U U^{'} = 1_{p}

$UU^\prime=1_p$

U

$U$

1

$1$

\sqrt{1} = 1

$\sqrt{1}=1$

V V^{'} = 1_{p}

$VV^\prime=1_p$

V

$V$

V^{- 1}

$V^{-1}$

(V^{- 1})^{'} (V^{- 1}) = 1_{p}

$(V^{-1})^\prime(V^{-1})=1_p$

V^{- 1} = V^{'}

$V^{-1}=V^\prime$

V V^{'} = (V^{'})^{'} V^{'} = 1_{p}

$VV^\prime=(V^\prime)^\prime V^\prime=1_p$

@ Máximo Obrigado pela boa sugestão. Eu incluí agora uma explicação na seção "Equações normais", onde o modelo de regressão é introduzido.

— whuber

X

$X$

V D {você}^{'} = X^{'} = X = você D V^{'} .

$VDU^\prime=X^\prime=X=UDV^\prime.$

U = V

$U=V$

X

$X$

— whuber

\hat{y}

$\hat{y}$