Este é o problema 3.23 na página 97 de Hastie et al., Elements of Statistical Learning , 2nd. ed. (5ª impressão) .
A chave para este problema é uma boa compreensão dos mínimos quadrados comuns (isto é, regressão linear), particularmente a ortogonalidade dos valores ajustados e dos resíduos.
Ortogonalidade lema : Let ser o matriz de design, o vector de resposta e os parâmetros (true). Assumindo que é de classificação completa (o que faremos ao longo), as estimativas de OLS de são . Os valores ajustados são . Então . Ou seja, os valores ajustados são ortogonais aos resíduos. Isto ocorre desde que .N × p y β X β β = ( X T X ) - 1 X T y y = X ( X T X ) - 1 X T y ⟨ y , y - y ⟩ = Y T ( y - y ) = 0 X T ( Y -Xn×pyβXββ^=(XTX)−1XTyy^=X(XTX)−1XTy⟨y^,y−y^⟩=y^T(y−y^)=0XT(y−y^)=XTy−XTX(XTX)−1XTy=XTy−XTy=0
Agora, deixe ser um vector de coluna de modo a que é a ésima coluna de . As condições assumidas são:x j j XxjxjjX
- j11N⟨xj,xj⟩=1 para cada , ,j1N⟨y,y⟩=1
- 1N⟨xj,1p⟩=1N⟨y,1p⟩=0 que indica um vetor de comprimento , e1pp
- 1N|⟨xj,y⟩|=λ para todos .j
Observe que, em particular , a última instrução do lema da ortogonalidade é idêntica a para todos os .⟨xj,y−y^⟩=0j
As correlações estão vinculadas
Agora, . Então,
e o segundo termo no lado direito é zero pelo lema da ortogonalidade , então
conforme desejado. O valor absoluto das correlações é apenas
u(α)=αXβ^=αy^
⟨xj,y−u(a)⟩=⟨xj,(1−α)y+αy−αy^⟩=(1−α)⟨xj,y⟩+α⟨xj,y−y^⟩,
1N|⟨xj,y−u(α)⟩|=(1−α)λ,
ρ^j(α)=1N|⟨xj,y−u(α)⟩|1N⟨xj,xj⟩−−−−−−−−√1N⟨y−u(α),y−u(α)⟩−−−−−−−−−−−−−−−−−−√=(1−α)λ1N⟨y−u(α),y−u(α)⟩−−−−−−−−−−−−−−−−−−√
Nota : O lado direito acima é independente de e o numerador é igual à covariância, pois assumimos que todos os 's e estão centralizados (portanto, em particular, nenhuma subtração da média é necessária )jxjy
Qual é o objetivo? À medida que aumenta, o vetor de resposta é modificado, de modo que ele se aproxima da solução de mínimos quadrados ( restrita! ) Obtida da incorporação apenas dos primeiros parâmetros no modelo. Isso modifica simultaneamente os parâmetros estimados, pois são simples produtos internos dos preditores com o vetor de resposta (modificado). A modificação assume uma forma especial. Mantém a (magnitude das) correlações entre os preditores e a resposta modificada a mesma ao longo do processo (mesmo que o valor da correlação esteja mudando). Pense no que isso está fazendo geometricamente e você entenderá o nome do procedimento!αp
Forma explícita da correlação (absoluta)
Vamos nos concentrar no termo no denominador, pois o numerador já está no formato necessário. Temos
⟨y−u(α),y−u(α)⟩=⟨(1−α)y+αy−u(α),(1−α)y+αy−u(α)⟩.
Substituindo em e usando a linearidade do produto interno, obtemosu(α)=αy^
⟨y−u(α),y−u(α)⟩=(1−α)2⟨y,y⟩+2α(1−α)⟨y,y−y^⟩+α2⟨y−y^,y−y^⟩.
Observe aquilo
- ⟨y,y⟩=N por suposição,
- ⟨y,y−y^⟩=⟨y−y^,y−y^⟩+⟨y^,y−y^⟩=⟨y−y^,y−y^⟩ , aplicando o lema da ortogonalidade (mais uma vez) ao segundo termo no meio; e,
- ⟨y−y^,y−y^⟩=RSS por definição.
Juntando tudo isso, você notará que temos
ρ^j(α)=(1−α)λ(1−α)2+α(2−α)NRSS−−−−−−−−−−−−−−−−−√=(1−α)λ(1−α)2(1−RSSN)+1NRSS−−−−−−−−−−−−−−−−−−−−−√
Para finalizar, e, portanto, fica claro que está monotonicamente diminuindo em e como . ρ j(α)α ρ j(α)↓0α↑11−RSSN=1N(⟨y,y,⟩−⟨y−y^,y−y^⟩)≥0ρ^j(α)αρ^j(α)↓0α↑1
Epílogo : concentre-se nas idéias aqui. Existe realmente apenas um. O lema da ortogonalidade faz quase todo o trabalho para nós. O resto é apenas álgebra, notação e a capacidade de colocar esses dois últimos em funcionamento.