Como derivar a solução de regressão de crista?

40

Estou tendo alguns problemas com a derivação da solução para regressão de crista.

Conheço a solução de regressão sem o termo de regularização:

β = (X^{T} X)^{- 1} X^{T} y .

$\beta = (X^TX)^{-1}X^Ty.$

Porém, após adicionar o termo L2 à função cost, como é que a solução se torna $\lambda\|\beta\|_2^2$

β = (X^{T} X + λ I)^{- 1} X^{T} y .

$\beta = (X^TX + \lambda I)^{-1}X^Ty.$

— user34790
fonte

23

Basta modificar a função de perda adicionando a penalidade. Em termos matriciais, a função de perda quadrática inicial se torna

(Y - X β)^{T} (Y - X β) + λ β^{T} β .

$(Y - X\beta)^{T}(Y-X\beta) + \lambda \beta^T\beta.$ A derivação em relação a

β

$\beta$ leva à equação normal

X^{T} Y = (X^{T} X + λ I) β

$X^{T}Y = \left(X^{T}X + \lambda I\right)\beta$ que leva ao estimador de Ridge.

— johnny
fonte

11

Como é que a derivada de é igual a

λ β^{T} β

$\lambda \beta^T \beta$

λ I β

$\lambda I \beta$

— user34790

4

@ user34790 Não é. É igual a . Mas o 2 cancela com 2 semelhantes nos outros termos. Obviamente, o fator é como um fator 1 na álgebra "regular", você pode multiplicá-lo onde quiser, sem alterar nada.

2 λ β

$2\lambda\beta$

I

$I$

— Bill

4

@ Bill: aqui você precisa a para obter uma matriz de dimensão correta para a adição trabalha com : é apenas um escalar

I

$I$

X^{T} X

$X^TX$

λ

$\lambda$

— Henry

47

Vamos desenvolver o que sabemos, que sempre que a matriz do modelo é , a resposta vetor é e o parâmetro vetor é , a função objetivo $n\times p$ $X$ $n$ $y$ $p$ $\beta$

f (β) = (y - X β)^{'} (y - X β)

$f(\beta) = (y - X\beta)^\prime(y - X\beta)$

(que é a soma dos quadrados dos resíduos) é minimizada quando resolve as equações normais $\beta$

(X^{'} X) β = X^{'} y .

$(X^\prime X)\beta = X^\prime y.$

A regressão de Ridge adiciona outro termo à função objetivo (geralmente depois de padronizar todas as variáveis para colocá-las em pé de igualdade), pedindo para minimizar

(y - X β)^{'} (y - X β) + λ β^{'} β

$(y - X\beta)^\prime(y - X\beta) + \lambda \beta^\prime \beta$

para alguma constante não negativa . É a soma dos quadrados dos resíduos mais um múltiplo da soma dos quadrados dos próprios coeficientes (tornando óbvio que ele tem um mínimo global). Como , ele possui uma raiz quadrada positiva . $\lambda$ $\lambda\ge 0$ $\nu^2 = \lambda$

Considere a matriz aumentada com linhas correspondentes a vezes a matriz de identidade : $X$ $\nu$ $p\times p$ $I$

X_{*} = (\begin{matrix} X \\ ν I \end{matrix})

$X_{*} = \pmatrix{X \\ \nu I}$

Quando o vetor é similarmente estendido com zeros no final para , o produto da matriz na função objetivo adiciona termos adicionais da forma ao objetivo original. Assim sendo $y$ $p$ $y_{*}$ $p$ $(0 - \nu \beta_i)^2 = \lambda \beta_i^2$

(y_{*} - X_{*} β)^{'} (y_{*} - X_{*} β) = (y - X β)^{'} (y - X β) + λ β^{'} β .

$(y_{*} - X_{*}\beta)^\prime(y_{*} - X_{*}\beta) = (y - X\beta)^\prime(y - X\beta) + \lambda \beta^\prime \beta.$

A partir da forma da expressão da mão esquerda, é imediato que as equações normais sejam

(X_{*}^{'} X_{*}) β = X_{*}^{'} y_{*} .

$(X_{*}^\prime X_{*})\beta = X_{*}^\prime y_{*}.$

Como juntamos zeros no final de , o lado direito é o mesmo que . No lado esquerdo, é adicionado ao . Portanto, as novas equações normais simplificam para $y$ $X^\prime y$ $\nu^2 I=\lambda I$ $X^\prime X$

(X^{'} X + λ I) β = X^{'} y .

$(X^\prime X + \lambda I)\beta = X^\prime y.$

Além de ser conceitualmente econômico - nenhuma nova manipulação é necessária para obter esse resultado - também é computacionalmente econômico: seu software para fazer mínimos quadrados comuns também fará regressão de crista sem qualquer alteração. (No entanto, pode ser útil em grandes problemas usar software projetado para essa finalidade, porque ele explorará a estrutura especial de para obter resultados eficientemente para um intervalo densamente espaçado de , permitindo que você explore como as respostas variam com .) $X_{*}$ $\lambda$ $\lambda$

Outra beleza dessa maneira de ver as coisas é como ela pode nos ajudar a entender a regressão da crista. Quando queremos realmente entender a regressão, quase sempre ajuda pensar nela geometricamente: as colunas de constituem vetores em um espaço vetorial real da dimensão . Ao unir a , prolongando-os de vetores para vetores, estamos incorporando em um espaço maior incluindo direções "imaginárias", mutuamente ortogonais. A primeira coluna de $X$ $p$ $n$ $\nu I$ $X$ $n$ $n+p$ $\mathbb{R}^n$ $\mathbb{R}^{n+p}$ $p$ $X$ recebe um pequeno componente imaginário de tamanho , prolongando-o e movendo-o para fora do espaço gerado pelas colunas originais . A segunda, terceira, ..., colunas são igualmente alongadas e movidas para fora do espaço original pela mesma quantidade - mas todas em novas direções diferentes. Consequentemente, qualquer colinearidade presente nas colunas originais será resolvida imediatamente . Além disso, quanto maior o número de , mais esses novos vetores se aproximam do $\nu$ $p$ $p^\text{th}$ $\nu$ $\nu$ $p$ direções imaginárias: elas se tornam cada vez mais ortonormais. Conseqüentemente, a solução das equações normais se tornará possível imediatamente e se tornará numericamente estável à medida que aumenta de . $\nu$ $0$

Essa descrição do processo sugere algumas abordagens inovadoras e criativas para solucionar os problemas que a Regressão de Ridge foi projetada para lidar. Por exemplo, usando qualquer meio (como a decomposição de variância descrita por Belsley, Kuh e Welsch em seu livro de 1980 sobre Regression Diagnostics , capítulo 3), você poderá identificar subgrupos de colunas quase colineares de , em que cada subgrupo é quase ortogonal a qualquer outro. Você só precisa contíguo tantas linhas para (e zeros para ) como existem elementos no maior grupo, dedicando uma nova dimensão "imaginária" para deslocar cada elemento de um grupo longe de seus irmãos: você não precisa imaginário dimensões para fazer isso. $X$ $X$ $y$ $p$

— whuber
fonte

2

O último autor do livro é galês, não galês.

— Mark L. Stone

11

Uau, isso só me impressionou. Existe alguma discussão sobre o que acontece quando isso é generalizado fora dos modelos lineares, isto é, dos glm's? A penalidade não deve ser igual à regressão de crista ... mas essa interpretação implica que ainda seria um estimador útil em potencial!

— Cliff AB

2

@ Cliff Essa é uma sugestão muito interessante. Como, no entanto, as estimativas GLM dependem de maneira mais complicada de e seus estimadores geralmente não podem ser fatorados na forma como são para OLS (onde e ), pode ser difícil estabelecer uma relação útil entre impor uma função de penalidade e modificando as colunas de . Em particular, não está claro como os valores em precisariam ser aumentados para que isso funcionasse.

X

$X$

\hat{β} = g (X) \cdot h (y)

$\hat\beta = g(X)\cdot h(y)$

g (X) = (X^{'} X)^{- 1} X^{'}

$g(X)=(X^\prime X)^{-1}X^\prime$

h (y) = y

$h(y)=y$

X

$X$

y

$y$

— whuber

11

Sim, seria preciso pensar um pouco para estabelecer qual é a penalidade, mas não estou tão preocupado com isso. A idéia de que usar geralmente também não é fácil ... exceto talvez no caso de regressão logística, onde poderíamos adicionar dois 's; um dos 0 e um dos 1. Esse aumento seria então uma versão mais geral do "estimador binomial +2" (existe um nome mais apropriado para esse estimador em que estou apagando, que é basicamente quando você está estimando partir de uma distribuição binomial usando a média posterior como a estimativa com um uniforme anterior em ).

y_{*}

$y_*$

y_{*}

$y_*$

p

$p$

p

$p$

— Cliff AB

@ Mark Obrigado pela correção. Você pode dizer que eu estava saindo da memória ... :-).

— whuber

20

A derivação inclui cálculo de matriz, que pode ser bastante entediante. Gostaríamos de resolver o seguinte problema:

min_{β} (Y - β^{T} X)^{T} (Y - β^{T} X) + λ β^{T} β

$\begin{equation} \min_\beta (Y-\beta^T X)^T(Y-\beta^T X)+\lambda \beta^T \beta \end{equation}$

Agora observe que e Juntos, chegamos à condição de primeira ordem Isolar gera a solução:

\frac{\partial (Y - β^{T} X)^{T} (Y - β^{T} X)}{\partial β} = - 2 X^{T} (Y - β^{T} X)

$\begin{equation} \frac{\partial (Y-\beta^T X)^T (Y-\beta^T X)}{\partial \beta}=-2X^T(Y-\beta^T X) \end{equation}$

\frac{\partial λ β^{T} β}{\partial β} = 2 λ β .

$\begin{equation} \frac{\partial \lambda \beta^T \beta}{\partial \beta}=2\lambda\beta. \end{equation}$

X^{T} Y = X^{T} X β + λ β .

$\begin{equation} X^TY = X^TX\beta + \lambda\beta. \end{equation}$

β

$\beta$

β = (X^{T} X + λ I)^{- 1} X^{T} Y .

$\begin{equation} \beta = (X^TX+ \lambda I )^{-1}X^T Y. \end{equation}$

— pthesling
fonte

9

Recentemente, deparei com a mesma pergunta no contexto de P-Splines e, como o conceito é o mesmo, quero dar uma resposta mais detalhada sobre a derivação do estimador de crista.

Começamos com uma função de critério penalizado que difere da função clássica de critério OLS pelo seu termo de penalização no último somatório:

$Criterion_{Ridge} = \sum_{i=1}^{n}(y_i-x_i^T\beta)^2 + \lambda \sum_{j=1}^p\beta_j^2$

Onde

$p=$ quantidade de covariáveis usadas no modelo
$x_i^T\beta =$ seu preditor linear padrão
o primeiro summand representa o MSE (divergência ao quadrado da previsão em relação ao valor real) que queremos minimizar como de costume
o segundo somatório representa a penalização que aplicamos aos coeficientes. Aqui estamos no contexto de Ridge, que implica uma medida de distância euclidiana e, portanto, o grau de 2 no termo da penalização. No caso de uma penalização por laço, aplicaríamos um grau 1 e produziríamos um estimador totalmente diferente.

Podemos reescrever esse critério na notação matricial e detalhá-lo:

$Criterion_{Ridge} = (y-X\beta)^T(y-X\beta) + \lambda\beta^T\beta$

$= y^Ty - \beta^TX^Ty - y^TX\beta+ \beta^Tx^TX\beta + \lambda\beta^T\beta$

$= y^Ty - \beta^TX^Ty - \beta^TX^Ty + \beta^TX^TX\beta + \beta^T\lambda I\beta$ sendo a matriz de identidade $I$

$= y^Ty - 2\beta^TX^Ty + \beta^T(X^TX + \lambda I)\beta$

Agora, pesquisamos o que minimiza nosso critério. Entre outros, usamos a regra de diferenciação de matrizes que podemos aplique aqui como : $\beta$ $\frac{\partial x^TAx}{\partial x} = (A+A^T)x \overset{\text{A symmetric}}{=} 2Ax$ $(X^TX + \lambda I) \in \mathbb{R}^{n \times n}$

$\frac{\partial Criterion_{Ridge} }{\partial\beta} = -2X^Ty + 2(X^TX + \lambda I)\beta \overset{!}{=}0$

$(X^TX + \lambda I)\beta = X^Ty$

$\overset{\text{et voilà}}{\Rightarrow} \hat\beta = (X^TX + \lambda I)^{-1} X^Ty$

— Jann Goschenhofer
fonte

@ Jahn, você pode explicar como se tornou ? Eu acho que você acabou de aplicar a transposição, certo. Mas você não pode simplesmente aplicar transposição em um termo sem aplicá-lo em todas as equações. O que estou perdendo aqui?

y^{T} X β

$y^TX\beta$

β^{T} X^{T} y

$\beta ^TX^Ty$

— theateist

11

@ theateist Um escalar transposto é o mesmo escalar.

— Konstantin

2

Há algumas coisas importantes que estão faltando nas respostas dadas.

A solução para é derivada da condição necessária de primeira ordem: que gera . Mas isso é suficiente? Ou seja, a solução é um mínimo global somente se for estritamente convexo. Isso pode ser mostrado como verdadeiro. $\beta$ $\frac{\partial f_{ridge}(\beta, \lambda)}{\partial \beta} = 0$ $\beta = (X^TX+ \lambda I )^{-1}X^T Y$ $f_{ridge}(\beta, \lambda)$
Outra maneira de analisar o problema é ver a equivalência entre e restrito a . OLS significa Mínimos Quadrados Ordinários. Nesta perspectiva, é apenas a função lagrangiana usada para encontrar os mínimos globais da função objetivo convexa restringida pela função convexa . $f_{ridge}(\beta, \lambda)$ $f_{OLS}(\beta) = (Y-\beta^T X)^T(Y-\beta^T X)$ $||\beta||^2_2 \leq t$ $f_{ridge}(\beta, \lambda)$ $f_{OLS}(\beta)$ $||\beta||^2_2$

Uma boa explicação para esses pontos e a derivação de podem ser encontradas nessas notas de aula: http://math.bu.edu/people/cgineste/classes/ma575/p/w14_1.pdf $\beta$

— Davor Josipovic
fonte