Por que a regressão do cume é chamada “cume”, por que é necessária e o que acontece quando

Cume estimativa coeficiente de regressão são os valores que minimizam o $\hat{\beta}^R$

RSS + λ \sum_{j = 1}^{p} β_{j}^{2} .

$\text{RSS} + \lambda \sum_{j=1}^p\beta_j^2.$

Minhas perguntas são:

Se $\lambda = 0$ , vemos que a expressão acima se reduz ao RSS usual. E se $\lambda \to \infty$ ? Não compreendo a explicação do livro didático sobre o comportamento dos coeficientes.
Para ajudar a entender o conceito por trás de um termo específico, por que o termo é chamado de Regressão RIDGE? (Por que cume?) E o que poderia estar errado com a regressão comum / comum de que é necessário introduzir um novo conceito chamado regressão de cume?

Suas idéias seriam ótimas.

ridge-regression statistical-learning history

— cgo
fonte

Respostas:

Como você pede informações , eu adotarei uma abordagem bastante intuitiva, em vez de uma abordagem mais matemática:

$p$ $y_{n+j}=0$ $x_{j,n+j}=\sqrt{\lambda}$ $x_{i,n+j}=0$ $i\neq j$ $(0-\sqrt{\lambda}\beta_j)^2=\lambda\beta_j^2$ $\text{RSS} + \lambda \sum_{j=1}^p\beta_j^2$

$\lambda$ $x$ $\lambda$ $x$ $0$

$\lambda\to\infty$ $\beta$
Darei uma noção intuitiva do motivo pelo qual estamos falando de cordilheiras primeiro (o que também sugere por que é necessário), depois abordarei um pouco da história. O primeiro é adaptado da minha resposta aqui :

$\beta$ $-2\log\mathcal{L}$

A regressão de cume "corrige" a crista - ela adiciona uma penalidade que transforma a crista em um pico agradável no espaço de probabilidade, equivalente a uma depressão agradável no critério que estamos minimizando:

[ Imagem mais nítida ]

A história real por trás do nome é um pouco mais complicada. Em 1959, AE Hoerl [1] introduziu a análise de crista para a metodologia da superfície de resposta, e muito em breve [2] tornou-se adaptado para lidar com a multicolinearidade na regressão ('regressão de crista'). Veja, por exemplo, a discussão de RW Hoerl em [3], onde descreve o uso de Hoerl (AE, não RW) de curvas de nível da superfície de resposta * na identificação de onde ir para encontrar ótimos locais (onde alguém 'lidera o cume'). Em problemas mal condicionados, surge a questão de uma crista muito longa, e os insights e a metodologia da análise da crista são adaptados à questão relacionada com a probabilidade / RSS na regressão, produzindo regressão da crista.

* exemplos de gráficos de contorno da superfície de resposta (no caso de resposta quadrática) podem ser vistos aqui (Fig 3.9-3.12).

$X^TX$

Para obter informações adicionais sobre a necessidade de regressão de crista, consulte o primeiro link no item 2. da lista acima.

Referências:

[1]: Hoerl, AE (1959). Solução ótima de muitas equações de variáveis. Progresso em Engenharia Química , 55 (11) 69-78.

[2]: Hoerl, AE (1962). Aplicações da análise de crista a problemas de regressão. Progresso em Engenharia Química , 58 (3) 54-59.

[3] Hoerl, RW (1985). Análise de Ridge 25 anos depois. American Statistician , 39 (3), 186-192

— Glen_b
fonte

Isso é extremamente útil. Sim, quando eu estava pedindo idéias, estava procurando intuição. É claro que a matemática é importante, mas eu também estava procurando explicações conceituais, porque há algumas partes em que a matemática estava além de mim. Obrigado novamente.

— cgo

Por que você tem a palavra "ponderada" no ponto 1 da bala?

— Ameba diz Reinstate Monica

É uma boa pergunta; não há necessidade de ser ponderado, a menos que a regressão original tenha sido ponderada. Eu removi o adjetivo. É também possível escrevê-lo como uma regressão ponderada (que se você já está fazendo regressão ponderada pode ser muito ligeiramente mais fácil lidar com).

— Glen_b

$\lambda \rightarrow \infty$ $\beta$ $\beta = 0$

(Atualização: consulte a resposta de Glen_b. Este não é o motivo histórico correto!)

$\hat{β} = (X^{T} X + λ I)^{- 1} X^{T} Y .$ $\hat \beta = (X^TX + \lambda I)^{-1} X^TY.$ $\lambda I$

$n < p$

$\beta$

$\beta$ $\beta \sim N(0, \frac{\sigma^2}{\lambda}I_p)$ $(Y|X, \beta) \sim N(X\beta, \sigma^2 I_n)$

π (β | y) \propto π (β) f (y | β)

$\pi(\beta | y) \propto \pi(\beta) f(y|\beta)$

\propto \frac{1}{(σ^{2} / λ)^{p / 2}} \exp (- \frac{λ}{2 σ^{2}} β^{T} β) \times \frac{1}{(σ^{2})^{n / 2}} \exp (\frac{- 1}{2 σ^{2}} | | y - X β | |^{2})

$\propto \frac{1}{(\sigma^2/\lambda)^{p/2}} \exp \left( -{\lambda \over 2\sigma^2} \beta^T\beta \right) \times \frac{1}{(\sigma^2)^{n/2}} \exp \left( \frac{-1}{2\sigma^2} ||y - X\beta||^2 \right)$

\propto \exp (- \frac{λ}{2 σ^{2}} β^{T} β - \frac{1}{2 σ^{2}} | | y - X β | |^{2}) .

$\propto \exp \left( -{\lambda \over 2\sigma^2} \beta^T\beta - \frac{1}{2\sigma^2} ||y - X\beta||^2 \right).$

max_{β \in R^{p}} \exp (- \frac{λ}{2 σ^{2}} β^{T} β - \frac{1}{2 σ^{2}} | | y - X β | |^{2})

$\max_{\beta \in \mathbb R^p} \ \exp \left( -{\lambda \over 2\sigma^2} \beta^T\beta - \frac{1}{2\sigma^2} ||y - X\beta||^2 \right)$

max_{β \in R^{p}} - \frac{λ}{2 σ^{2}} β^{T} β - \frac{1}{2 σ^{2}} | | y - X β | |^{2}

$\max_{\beta \in \mathbb R^p} \ -{\lambda \over 2\sigma^2} \beta^T\beta - \frac{1}{2\sigma^2} ||y - X\beta||^2$ porque é estritamente monótono e isso é equivalente a

\log

$\log$

min_{β \in R^{p}} | | y - X β | |^{2} + λ β^{T} β

$\min_{\beta \in \mathbb R^p} ||y - X\beta||^2 + \lambda \beta^T\beta$

o que deve parecer bastante familiar.

Portanto, vemos que, se colocarmos um normal anterior com média 0 e variância em nosso vetor , o valor de que maximiza o posterior é o estimador de crista. Observe que isso trata mais como um parâmetro frequentista, porque não há um precedente, mas não é conhecido; portanto, isso não é totalmente bayesiano. $\frac{\sigma^2}{\lambda}$ $\beta$ $\beta$ $\sigma^2$

Edit: você perguntou sobre o caso em que . Sabemos que um hiperplano em é definido por exatamente pontos. Se estivermos executando uma regressão linear e , interpolamos exatamente nossos dados e obtemos . Essa é uma solução, mas é terrível: nosso desempenho em dados futuros provavelmente será péssimo. Agora suponha que : não exista mais um hiperplano único definido por esses pontos. Podemos encaixar uma infinidade de hiperplanos, cada um com 0 soma residual de quadrados. $n < p$ $\mathbb R^p$ $p$ $n = p$ $||y - X\hat\beta||^2 = 0$ $n < p$

Um exemplo muito simples: suponha que . Então, vamos obter uma linha entre esses dois pontos. Agora suponha que mas . Imagine um avião com esses dois pontos. Podemos girar esse plano sem alterar o fato de que esses dois pontos estão nele; portanto, existem inúmeros modelos, todos com um valor perfeito de nossa função objetivo; portanto, além da questão do ajuste excessivo, não está claro qual escolher. $n = p = 2$ $n = 2$ $p = 3$

Como comentário final (por sugestão de @ gung), o LASSO (usando uma penalidade de ) é comumente usado para problemas de alta dimensão porque realiza automaticamente a seleção de variáveis (define alguns ). Por incrível que pareça, o LASSO é equivalente a encontrar o modo posterior ao usar um exponencial duplo (aka Laplace) antes do vetor . O LASSO também tem algumas limitações, tais como saturando a preditores e não necessariamente a manipulação de grupos preditores correlacionados de um modo ideal, de modo que a rede elástica (combinação convexa de e penalidades) pode ser exercida. $L_1$ $\beta_j = 0$ $\beta$ $n$ $L_1$ $L_2$

— jld
fonte

(+1) Sua resposta pode ser melhorada, elaborando a conexão entre regressão bayesiana e de crista.

— Reponha Monica

Vai fazer - digitando-o agora.

— JLD

O OLS não pode encontrar uma solução exclusiva quando porque a matriz de design não possui classificação completa. Isso é uma pergunta muito comum; pesquise nos arquivos uma descrição de por que isso não funciona.

n < p

$n<p$

— Reponha Monica

@cgo: a explicação e a sugestão de pesquisar do user777 são boas, mas por uma questão de completude, também adicionei uma (espero) explicação intuitiva.

— JLD

+1, boa resposta. No entanto, você pode mencionar que o LASSO é normalmente usado neste caso e que está intimamente relacionado ao RR.

— gung - Restabelece Monica