Como encontrar os coeficientes de regressão

Na regressão de crista, a função objetivo a ser minimizada é:

RSS + λ \sum β_{j}^{2} .

$\text{RSS}+\lambda \sum\beta_j^2.$

Isso pode ser otimizado usando o método multiplicador de Lagrange? Ou é uma diferenciação direta?

regression regularization ridge-regression

— Minaj
fonte

Qual é a conexão entre o título (que incide sobre

λ

$\lambda$ ) ea questão (que parece ser apenas sobre a

β_{j}

$\beta_j$ )? Preocupa-me que "ser otimizado" possa ter interpretações distintamente diferentes, dependendo de quais variáveis são consideradas aquelas que podem variar e quais devem ser corrigidas.

— whuber

obrigado modificou a pergunta. Eu li que o

λ

$\lambda$ é encontrado por validação cruzada - mas acredito que isso significa que você já possui o

β_{j}

$\beta_j$ e usa dados diferentes para encontrar o melhor

λ

$\lambda$ questão é - como você encontra os

β_{j}

$\beta_j$ 's em primeiro lugar quando

λ

$\lambda$ é desconhecido?

— Minaj

Existem duas formulações para o problema da crista. O primeiro é

β_{R} = \underset{β}{argmin} {(y - X β)}^{'} (y - X β)

$\boldsymbol{\beta}_R = \operatorname*{argmin}_{\boldsymbol{\beta}} \left( \mathbf{y} - \mathbf{X} \boldsymbol{\beta} \right)^{\prime} \left( \mathbf{y} - \mathbf{X} \boldsymbol{\beta} \right)$

sujeito a

\sum_{j} β_{j}^{2} \leq s .

$\sum_{j} \beta_j^2 \leq s.$

Esta formulação mostra a restrição de tamanho nos coeficientes de regressão. Observe o que essa restrição implica; estamos forçando os coeficientes a mentir em uma bola ao redor da origem com raio . $\sqrt{s}$

A segunda formulação é exatamente o seu problema

β_{R} = \underset{β}{argmin} {(y - X β)}^{'} (y - X β) + λ \sum β_{j}^{2}

$\boldsymbol{\beta}_R = \operatorname*{argmin}_{\boldsymbol{\beta}} \left( \mathbf{y} - \mathbf{X} \boldsymbol{\beta} \right)^{\prime} \left( \mathbf{y} - \mathbf{X} \boldsymbol{\beta} \right) + \lambda \sum\beta_j^2$

que pode ser visto como a formulação multiplicadora de Largrange. Observe que aqui é um parâmetro de ajuste e valores maiores dele levarão a um encolhimento maior. Você pode prosseguir para diferenciar a expressão em relação a e obter o conhecido estimador de crista $\lambda$ $\boldsymbol{\beta}$

\begin{matrix} (1) & β_{R} = {(X^{'} X + λ I)}^{- 1} X^{'} y \end{matrix}

$\boldsymbol{\beta}_{R} = \left( \mathbf{X}^{\prime} \mathbf{X} + \lambda \mathbf{I} \right)^{-1} \mathbf{X}^{\prime} \mathbf{y} \tag{1}$

As duas formulações são completamente equivalentes , uma vez que existe um correspondência de um-para-um entre e . $s$ $\lambda$

Deixe-me elaborar um pouco sobre isso. Imagine que você está no caso ideal ortogonal, . Esta é uma situação altamente simplificada e irrealista, mas podemos investigar o estimador um pouco mais de perto, então tenha paciência comigo. Considere o que acontece com a equação (1). O estimador de crista reduz para $\mathbf{X}^{\prime} \mathbf{X} = \mathbf{I}$

β_{R} = {(I + λ I)}^{- 1} X^{'} y = {(I + λ I)}^{- 1} β_{O L S}

$\boldsymbol{\beta}_R = \left( \mathbf{I} + \lambda \mathbf{I} \right)^{-1} \mathbf{X}^{\prime} \mathbf{y} = \left( \mathbf{I} + \lambda \mathbf{I} \right)^{-1} \boldsymbol{\beta}_{OLS}$

como no caso ortogonal, o estimador OLS é dado por . Olhando para este componente agora obtemos $\boldsymbol{\beta}_{OLS} = \mathbf{X}^{\prime} \mathbf{y}$

\begin{matrix} (2) & β_{R} = \frac{β_{O L S}}{1 + λ} \end{matrix}

$\beta_R = \frac{\beta_{OLS}}{1+\lambda} \tag{2}$

Observe então que agora o encolhimento é constante para todos os coeficientes. Isto pode não segurar no caso geral e de fato ele pode ser mostrado que as contrações vão diferir muito se houver degenerescências no matriz. $\mathbf{X}^{\prime} \mathbf{X}$

Mas vamos voltar ao problema de otimização restrita. Pela teoria KKT , uma condição necessária para otimizar é

λ (\sum β_{R, j}^{2} - s) = 0

$\lambda \left( \sum \beta_{R,j} ^2 -s \right) = 0$

então ou (neste caso, dizemos que a restrição é vinculativa). Se , não há penalidade e estamos de volta à situação normal do OLS. Suponha então que a restrição seja vinculativa e que estamos na segunda situação. Usando a fórmula em (2), temos então $\lambda = 0$ $\sum \beta_{R,j} ^2 -s = 0$ $\lambda = 0$

s = \sum β_{R, j}^{2} = \frac{1}{{(1 + λ)}^{2}} \sum β_{O L S, j}^{2}

$s = \sum \beta_{R,j}^2 = \frac{1}{\left(1 + \lambda \right)^2} \sum \beta_{OLS,j}^2$

de onde obtemos

λ = \sqrt{\frac{\sum β_{O L S, j}^{2}}{s}} - 1

$\lambda = \sqrt{\frac{\sum \beta_{OLS,j} ^2}{s}} - 1$

o relacionamento um a um reivindicado anteriormente. Espero que isso seja mais difícil de estabelecer no caso não ortogonal, mas o resultado é independente.

Olhe novamente para (2) e você verá que ainda estamos perdendo o . Para obter um valor ideal para isso, você pode usar a validação cruzada ou observar o rastreamento da crista. O último método envolve a construção de uma sequência de em (0,1) e a análise de como as estimativas mudam. Você então seleciona o que os estabiliza. A propósito, este método foi sugerido na segunda das referências abaixo e é o mais antigo. $\lambda$ $\lambda$ $\lambda$

Referências

Hoerl, Arthur E. e Robert W. Kennard. "Regressão de Ridge: estimativa enviesada para problemas não-ortogonais." Technometrics 12.1 (1970): 55-67.

Hoerl, Arthur E. e Robert W. Kennard. "Regressão de Ridge: aplicações a problemas não-ortogonais." Technometrics 12.1 (1970): 69-82.

— JohnK
fonte

A regressão @Minaj Ridge tem encolhimento constante para todos os coeficientes (exceto a interceptação). É por isso que existe apenas um multiplicador.

— JohnK

@amoeba This is a suggestion by Hoerl and Kennard, the people who introduced ridge regression in the 1970s. Based on their experience - and mine - the coefficients will stabilize in that interval even with extreme degrees of multicollinearity. Of course, this is an empirical strategy and so it is not guaranteed to work all the time.

— JohnK

You could also just do the pseudo-observation method and get the estimates with nothing more complicated than a straight least squares regression program. You can also investigate the effect of changing

λ

$\lambda$ in a similar fashion.

— Glen_b -Reinstate Monica

@amoeba It is true that ridge is not scale invariant, that's why it is common practice to standardize the data beforehand. I have included the relevant references in case you want to take a look. They are immensely interesting and not so technical.

— JohnK

@JohnK in effect ridge regression shrinks each

β

$\beta$ by a different amount, so the shrinkage isn't constant even though there is only one shrinkage parameter

λ

$\lambda$ .

— Frank Harrell

Meu livro Regression Modeling Strategies investiga o uso de AIC eficaz para escolher $\lambda$ . This comes from the penalized log likelihood and the effective degrees of freedom, the latter being a function of how much variances of $\hat{\beta}$ são reduzidos por penalização. Uma apresentação sobre isso está aqui . O rmspacote R pentraceencontra $\lambda$ que otimiza a AIC efetiva e também permite vários parâmetros de penalidade (por exemplo, um para efeitos principais lineares, um para efeitos principais não lineares, um para efeitos de interação linear e outro para efeitos de interação não linear).

— Frank Harrell
fonte

+1. What do you think of using leave-one-out CV error, computed via the explicit formula (i.e. without actually performing CV), for choosing

λ

$\lambda$ ? Do you have any idea about how it in practice compares to "effective AIC"?

— amoeba says Reinstate Monica

I haven't studied that. LOOCV takes a lot of computation.

— Frank Harrell

Not if the explicit formula is used: stats.stackexchange.com/questions/32542.

— amoeba says Reinstate Monica

That formula works for the special case of OLS, not for maximum likelihood in general. But there is an approximate formula using score residuals. I do realize we are mainly talking about OLS in this discussion though.

— Frank Harrell

I don't do it analytically, but rather numerically. I usually plot RMSE vs. λ as such:

Figure 1. RMSE and the constant λ or alpha.

— Lennart
fonte

Does this mean you fix a certain value of

λ

$\lambda$ and then differentiate the expression to find the

β_{j}

$\beta_j$ 's after which you compute RMSE and do the process all over again for new values of

λ

$\lambda$ ?

— Minaj