Noções básicas sobre regressão de crista negativa


12

Estou procurando literatura sobre regressão negativa da crista .

Em suma, isto é uma generalização de regressão linear utilizando cume negativo λ na fórmula

β^=(XX+λI)1Xy.
O caso positivo tem uma teoria legal: como uma função de perda, como uma restrição, como um Bayes anterior ... mas me sinto perdido com a versão negativa apenas com a fórmula acima. Por acaso, é útil para o que estou fazendo, mas não consigo interpretá-lo claramente.

Você conhece algum texto introdutório sério sobre crista negativa? Como pode ser interpretado?


1
Não conheço nenhum texto introdutório que fale sobre isso, mas essa fonte pode ser esclarecedora, especialmente a discussão na parte inferior da página 18: jstor.org/stable/4616538?seq=1#page_scan_tab_contents
Ryan Simmons

1
Caso esse link morra no futuro, a citação completa é: Björkström, A. & Sundberg, R. "Uma visão generalizada sobre regressão contínua". Scandinavian Journal of Statistics, 26: 1 (1999): pp.17-30
Ryan Simmons

2
Muito obrigado. Isso fornece uma interpretação clara da crista via CR quando (maior autovalor da matriz de covariância). Ainda à procura de uma interpretação com λ > - λ 1 ...λ<λ1λ>λ1
Benoit Sanchez

Nota neste desenvolvimento de regressão cume de regularização de Tikhonov que a regularização Tikhonov torna-se α 2 I para a regressão cume. Subsequentemente, α 2 é geralmente substituído por λ . A única maneira de tornar esse negativo negativo é α ser imaginário, ou seja, um múltiplo de i = ΓTΓα2Iα2λα . OK, e agora? Para onde você quer ir? i=1
15248 Carl

Cume negativo mencionado aqui: stats.stackexchange.com/questions/328630/... com alguns links
b Kjetil Halvorsen

Respostas:


12

Aqui está uma ilustração geométrica do que está acontecendo com crista negativa.

Considerarei estimadores do formato resultante da função de perdaAqui está uma ilustração bastante padrão do que acontece em um caso bidimensional com . Zero lambda corresponde à solução OLS, infinito lambda reduz o beta estimado para zero:

β^λ=(XX+λI)1Xy
Lλ=yXβ2+λβ2.
λ[0,)

insira a descrição da imagem aqui

Agora, considere o que acontece quando , onde é o maior valor singular de . Para lambdas negativas muito grandes, é obviamente próximo de zero. Quando lambda se aproxima de , o termo obtém um valor singular que se aproxima de zero, o que significa que o inverso tem um valor singular que vai para o infinito negativo. Esse valor singular corresponde ao primeiro componente principal de , portanto, no limite, obtém-se apontando na direção do PC1, mas com o valor absoluto crescendo até o infinito.λ(,smax2)smaxXβ^λsmax2(XX+λI)Xβ^λ

O que é realmente legal é que se pode desenhar da mesma maneira da mesma maneira: os betas são dados por pontos em que os círculos tocam as elipses por dentro :

insira a descrição da imagem aqui

Quando , uma lógica semelhante se aplica, permitindo continuar o caminho da crista no outro lado do estimador OLS. Agora os círculos tocam as elipses do lado de fora. No limite, os betas se aproximam da direção do PC2 (mas acontece muito além deste esboço):λ(smin2,0]

insira a descrição da imagem aqui

O intervalo é uma lacuna de energia : os estimadores de lá não vivem na mesma curva.(smax2,smin2)

ATUALIZAÇÃO: Nos comentários, @MartinL explica que, para a perda não tem um mínimo, mas tem um máximo. E esse máximo é dado por . É por isso que a mesma construção geométrica com o toque de círculo / elipse continua funcionando: ainda estamos procurando pontos com gradiente zero. Quando , a perda tem um mínimo e é fornecida por , exatamente como no normal caso.λ<smax2Lλβ^λsmin2<λ0Lλβ^λλ>0

Mas quando , a perda não possui máximo ou mínimo; corresponderia a um ponto de sela. Isso explica a "diferença de energia".smax2<λ<smin2Lλβ^λ


O surge naturalmente de uma regressão de crista restrita específica, consulte O limite do estimador de regressão de crista de "variação de unidade" quando . Isso está relacionado ao que é conhecido na literatura quimiométrica como "regressão contínua", veja minha resposta no tópico vinculado.λ(,smax2)λ

O pode ser tratado exatamente da mesma maneira que : a função de perda permanece a mesma e o estimador de crista fornece seu mínimo.λ(smin2,0]λ>0


1
Obrigado pelos gráficos interessantes. Quando , a solução que você representa graficamente é o máximo global da função de custo, não o mínimo global. Da mesma forma, quando , o ponto que você representou graficamente deve ser um ponto de sela da função de custo. λ<smax2smax2<λ<0
Martin L

1
Considere apenas os termos quadráticos na função de custo. Eles podem ser escritos como Deixe , então a matriz entre parênteses tem apenas autovalores negativos. Deixe , e a matriz possui valores próprios positivos e negativos. Esses valores próprios influenciam se o ponto é um ponto de sela, mínimo ou máximo da função de custo.
βT(XTX+λI)β.
λ<smax2smax2<λ<0
Martin L

1
Isso é muito útil, muito obrigado. Eu fiz uma atualização na minha resposta.
Ameba diz Reinstate Monica

1
Obrigado. Em particular, por perceber que o ponto de sela só é válido quando . Quando , a solução ainda é um mínimo global desde então, é definitivamente positivo. Meu comentário anterior foi, portanto, parcialmente incorreto. smax2<λ<smin2λ>smin2XTX+λI
Martin L
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.