A resposta para 1 e 2 é não, mas é necessário cuidado na interpretação do teorema da existência.
Variação do Estimador de Ridge
Seja a estimativa da crista sob a penalidade e seja o parâmetro verdadeiro para o modelo . Seja os valores próprios de .
Das equações de Hoerl & Kennard 4.2-4.5, o risco (em termos da norma esperada para o erro) é kβY=Xβ+£λ1,...,λpXTXG2β∗^kβY=Xβ+ϵλ1,…,λpXTX
L2
E([β∗^−β]T[β∗^−β])=σ2∑j=1pλj/(λj+k)2+k2βT(XTX+kIp)−2β=γ1(k)+γ2(k)=R(k)
onde, tanto quanto eu sei, Eles observam que tem a interpretação da variação do produto interno de , enquanto é o produto interno do viés.
γ1 ^ β ∗ -βγ2(XTX+kIp)−2=(XTX+kIp)−1(XTX+kIp)−1.γ1β∗^−βγ2
Supondo que , então
Seja
seja a derivada do risco w / r / t . Como , concluímos que há alguns tais que . R ( k ) = p σ 2 + k 2 β T βXTX=IpR′(k)=2k(1+k)βTβ-(pσ2+k2βTβ)
R(k)=pσ2+k2βTβ(1+k)2.
klimk→0+R′(k)=-2pσ2<0k∗>0R(k∗)<R(0)R′(k)=2k(1+k)βTβ−(pσ2+k2βTβ)(1+k)3
klimk→0+R′(k)=−2pσ2<0k∗>0R(k∗)<R(0)
Os autores observam que a ortogonalidade é a melhor que você pode esperar em termos de risco em e que, à medida que o número de condições de aumenta, abordagens .X T X lim k → 0 + R ′ ( k ) - ∞k=0XTXlimk→0+R′(k)−∞
Comente
Parece haver um paradoxo aqui: se e são constantes, estamos apenas estimando a média de uma sequência de variáveis Normal e conhecemos a estimativa imparcial da baunilha é admissível neste caso. Isso é resolvido observando que o raciocínio acima apenas fornece que existe um valor minimizador de para fixo . Mas para qualquer , podemos fazer com que o risco exploda aumentando , de modo que esse argumento por si só não mostra admissibilidade para a estimativa da crista.p=1X(β,σ2)kβTβkβTβ
Por que a regressão de crista geralmente é recomendada apenas no caso de preditores correlacionados?
A derivação de risco da H&K mostra que, se considerarmos que é pequeno e se o design for quase singular, podemos obter grandes reduções no risco da estimativa. Acho que a regressão de cume não é usada onipresentemente porque a estimativa de OLS é um padrão seguro e que as propriedades de invariância e imparcialidade são atraentes. Quando falha, falha honestamente - sua matriz de covariância explode. Também existe talvez um ponto filosófico / inferencial, de que se o seu design é quase singular e você tem dados observacionais, então a interpretação de como dando alterações no para mudanças de unidade no é suspeita - a grande matriz de covariância é uma sintoma disso. βTβXTXβEYX
Mas se seu objetivo é apenas previsão, as preocupações inferenciais não se mantêm, e você tem um forte argumento para usar algum tipo de estimador de encolhimento.