Uma interpretação geométrica
O estimador descrito na pergunta é o multiplicador de Lagrange equivalente ao seguinte problema de otimização:
minimizar f( β) sujeito a g( β) ≤ t e h ( β) = 1
f( β)g( β)h ( β)= ∥ y- Xβ∥2= ∥ β∥2= ∥ Xβ∥2
que pode ser visto, geometricamente, como encontrar o menor elipsóide que toca a interseção da esfera elipsóidef( β) = RSS g( β) = th ( β) = 1
Comparação com a visualização de regressão de crista padrão
Em termos de uma vista geométrica, isso altera a vista antiga (para regressão padrão da crista) do ponto em que um esferóide (erros) e uma esfera ( ) se tocam∥ β∥2= t . Em uma nova visão, procuramos o ponto em que o esferóide (erros) toca uma curva (norma beta restrita por ) . A única esfera (azul na imagem esquerda) muda para uma figura de dimensão inferior devido à interseção com a restrição .‖ X β ‖ 2 = 1 ‖ X β ‖ = 1∥ Xβ∥2= 1∥ Xβ∥ = 1
No caso bidimensional, isso é simples de visualizar.
Quando sintonizar o parâmetro , então, mudar o comprimento relativo das esferas azuis / vermelho ou os tamanhos relativos dos e (Na teoria de multiplicadores de Lagrange provavelmente há uma maneira elegante de formal e descreva exatamente que isso significa que para cada como função de , ou invertida, é uma função monótona.Mas imagino que você possa ver intuitivamente que a soma dos resíduos quadráticos só aumenta quando diminuímos .)tf( β)g( β) t λ | | beta | |tλ| | β| |
A solução para é como você argumentou em uma linha entre 0 eβλλ = 0βLS
A solução para está (de fato, como você comentou) nos carregamentos do primeiro componente principal. Este é o ponto em que é o menor para . É o ponto em que o círculo toca na elipse em um único ponto.βλλ→∞∥β∥2∥βX∥2=1∥β∥2=t|Xβ|=1
Nesta vista 2-d, as arestas da interseção da esfera esferóide são pontos. Em múltiplas dimensões, estas serão curvas∥β∥2=t∥βX∥2=1
(I imaginado que estas curvas seria elipses mas eles são mais complicados. Você poderia imaginar o elipsóide sendo cortada pela bola como alguns tipo de frustum elipsóide, mas com bordas que não são simples elipses)∥Xβ∥2= 1∥ β∥2≤ t
Em relação ao limiteλ→∞
No início (edições anteriores), escrevi que haverá alguns limitadores acima dos quais todas as soluções são iguais (e residem no ponto ). Mas esse não é o casoλlimβ∗∞
Considere a otimização como um algoritmo LARS ou descida de gradiente. Se, em qualquer ponto houver uma direção na qual possamos alterar o , de forma que o termo de penalidade aumente menos que o termo SSR diminua, você não estará no mínimo .ββ|β|2|y−Xβ|2
- Na regressão normal da crista, você tem uma inclinação zero (em todas as direções) para no ponto . Portanto, para todos os finitos, a solução não pode ser (já que uma etapa infinitesimal pode ser feita para reduzir a soma dos resíduos quadrados sem aumentar a penalidade).|β|2β=0λβ=0
- Para o LASSO, isso não é o mesmo, pois: a penalidade é (portanto, não é quadrática com inclinação zero). Por isso, o LASSO terá algum valor limitador acima do qual todas as soluções são zero, porque o termo da penalidade (multiplicado por ) aumentará mais do que a soma residual dos quadrados diminui.|β|1λlimλ
- Para a crista restringida, você obtém o mesmo que a regressão regular da crista. Se você alterar o partir de , essa alteração será perpendicular a (o será perpendicular à superfície da elipse ) e pode ser alterado em uma etapa infinitesimal sem alterar o termo da penalidade, mas diminuindo a soma dos resíduos ao quadrado. Assim, para qualquer finito, o ponto não pode ser a solução.ββ∗∞ β β ∗ ∞ | X beta | = 1 β λ β ∗ ∞ββ∗∞|Xβ|=1βλβ∗∞
Notas adicionais sobre o limiteλ→∞
O limite de regressão de crista usual para até o infinito corresponde a um ponto diferente na regressão de crista restrita. Esse limite "antigo" corresponde ao ponto em que é igual a -1. Em seguida, a derivada da função Lagrange no problema normalizadoλμ
2(1+μ)XTXβ+2XTy+2λβ
corresponde a uma solução para a derivada da função Lagrange no problema padrão
2XTXβ′+2XTy+2λ(1+μ)β′with β′=(1+μ)β
Escrito por StackExchangeStrike