Na regressão de crista, a função objetivo a ser minimizada é:
Isso pode ser otimizado usando o método multiplicador de Lagrange? Ou é uma diferenciação direta?
Na regressão de crista, a função objetivo a ser minimizada é:
Isso pode ser otimizado usando o método multiplicador de Lagrange? Ou é uma diferenciação direta?
Respostas:
Existem duas formulações para o problema da crista. O primeiro é
sujeito a
Esta formulação mostra a restrição de tamanho nos coeficientes de regressão. Observe o que essa restrição implica; estamos forçando os coeficientes a mentir em uma bola ao redor da origem com raio .
A segunda formulação é exatamente o seu problema
que pode ser visto como a formulação multiplicadora de Largrange. Observe que aqui é um parâmetro de ajuste e valores maiores dele levarão a um encolhimento maior. Você pode prosseguir para diferenciar a expressão em relação a β e obter o conhecido estimador de crista
As duas formulações são completamente equivalentes , uma vez que existe um correspondência de um-para-um entre e λ .
Deixe-me elaborar um pouco sobre isso. Imagine que você está no caso ideal ortogonal, . Esta é uma situação altamente simplificada e irrealista, mas podemos investigar o estimador um pouco mais de perto, então tenha paciência comigo. Considere o que acontece com a equação (1). O estimador de crista reduz para
como no caso ortogonal, o estimador OLS é dado por . Olhando para este componente agora obtemos
Observe então que agora o encolhimento é constante para todos os coeficientes. Isto pode não segurar no caso geral e de fato ele pode ser mostrado que as contrações vão diferir muito se houver degenerescências no matriz.
Mas vamos voltar ao problema de otimização restrita. Pela teoria KKT , uma condição necessária para otimizar é
então ou ∑ β 2 R , j - s = 0 (neste caso, dizemos que a restrição é vinculativa). Se λ = 0 , não há penalidade e estamos de volta à situação normal do OLS. Suponha então que a restrição seja vinculativa e que estamos na segunda situação. Usando a fórmula em (2), temos então
de onde obtemos
o relacionamento um a um reivindicado anteriormente. Espero que isso seja mais difícil de estabelecer no caso não ortogonal, mas o resultado é independente.
Olhe novamente para (2) e você verá que ainda estamos perdendo o . Para obter um valor ideal para isso, você pode usar a validação cruzada ou observar o rastreamento da crista. O último método envolve a construção de uma sequência de λ em (0,1) e a análise de como as estimativas mudam. Você então seleciona o λ que os estabiliza. A propósito, este método foi sugerido na segunda das referências abaixo e é o mais antigo.
Referências
Hoerl, Arthur E. e Robert W. Kennard. "Regressão de Ridge: estimativa enviesada para problemas não-ortogonais." Technometrics 12.1 (1970): 55-67.
Hoerl, Arthur E. e Robert W. Kennard. "Regressão de Ridge: aplicações a problemas não-ortogonais." Technometrics 12.1 (1970): 69-82.
Meu livro Regression Modeling Strategies investiga o uso de AIC eficaz para escolher. This comes from the penalized log likelihood and the effective degrees of freedom, the latter being a function of how much variances of são reduzidos por penalização. Uma apresentação sobre isso está aqui . O rms
pacote R pentrace
encontra que otimiza a AIC efetiva e também permite vários parâmetros de penalidade (por exemplo, um para efeitos principais lineares, um para efeitos principais não lineares, um para efeitos de interação linear e outro para efeitos de interação não linear).
I don't do it analytically, but rather numerically. I usually plot RMSE vs. λ as such:
Figure 1. RMSE and the constant λ or alpha.