Esta é uma pergunta interessante. Surpreendentemente, é possível fazer algo sob certas premissas, mas há uma potencial perda de informações sobre a variação residual. Depende de quanto é perdido.XX
Vamos considerar a seguinte decomposição do valor singular de com matriz e com colunas ortonormais, uma matriz diagonal com valores singulares positivos na diagonal e a matriz ortogonal. Então as colunas de formam uma base ortonormal para o espaço da coluna de e
é o vetor de coeficientes para a projeção de neste espaço da coluna quando expandido noX = U D V tX=UDVt XXUUn×pn×pDDd1≥d2≥...≥dp>0d1≥d2≥...≥dp>0VVp×pp×pUUXXZ=UtY=D−1VtVDUtY=D−1VtXtY
Z=UtY=D−1VtVDUtY=D−1VtXtY
YYUUBase emA partir da fórmula vemos que é calculável a partir do conhecimento de e única.
ZZXXXtYXtY
Como o preditor de regressão de crista para um dado pode ser calculado como
, vemos que os coeficientes para o preditor de regressão de crista na base da coluna são
Agora, assumimos a distribuição de que tem média dimensional e matriz de covariância . Então tem média dimensional e matriz de covariância . Se imaginarmos um independenteλλˆY=X(XtX+λI)−1XtY=UD(D2+λI)−1DUtY=UD(D2+λI)−1DZ
Y^=X(XtX+λI)−1XtY=UD(D2+λI)−1DUtY=UD(D2+λI)−1DZ
UUˆZ=D(D2+λI)−1DZ.Z^=D(D2+λI)−1DZ.
YYnnξξσ2Inσ2InZZppUtξUtξσ2Ipσ2IpYNewYNew com a mesma distribuição que (tudo condicionalmente em partir daqui) o tem o mesmo distribuição como e é independente e
Aqui a terceira igualdade segue pela ortogonalidade de e e a quarta pelo fato de que
YYXXZNew=UtYNewZNew=UtYNewZZE||YNew−ˆY||2=E||YNew−UZNew+UZNew−UˆZ||2=E||YNew−UZNew||2+E||UZNew−UˆZ||2=Err0+E||ZNew−ˆZ||2.E||YNew−Y^||2===E||YNew−UZNew+UZNew−UZ^||2E||YNew−UZNew||2+E||UZNew−UZ^||2Err0+E||ZNew−Z^||2.
YNew−UZNewYNew−UZNewUZNew−UˆZUZNew−UZ^UU tem colunas ortonormais. A quantidade é um erro sobre o qual não podemos obter informações, mas também não depende de . Para minimizar o erro de previsão no lado esquerdo, temos que minimizar o segundo termo no lado direito.
Err0Err0λλ
Por um cálculo padrão
Aqui é conhecido como graus de liberdade efetivos para regressão de crista com o parâmetro . Um estimador imparcial de é
E||ZNew−ˆZ||2=E||Z−ˆZ||2+2p∑i=1cov(Zi,ˆZi)=E||Z−ˆZ||2+2σ2p∑i=1d2id2i+λ⏟df(λ).
E||ZNew−Z^||2==E||Z−Z^||2+2∑i=1pcov(Zi,Z^i)E||Z−Z^||2+2σ2∑i=1pd2id2i+λdf(λ).
df(λ)df(λ)λλE||Z−ˆZ||2E||Z−Z^||2err(λ)=||Z−ˆZ||2=p∑i=1(1−d2id2i+λ)2Z2i.err(λ)=||Z−Z^||2=∑i=1p(1−d2id2i+λ)2Z2i.
Combinamos isso com o estimador (imparcial)
de dado que conhecemos , que precisamos minimizar. Obviamente, isso só pode ser feito se conhecermos ou tivermos um palpite razoável ou estimador de .err(λ)+2σ2df(λ)
err(λ)+2σ2df(λ)
E||ZNew−ˆZ||2E||ZNew−Z^||2σ2σ2σ2σ2σ2σ2
Estimar pode ser mais problemático. É possível mostrar que
Portanto, se é possível escolher tão pequeno que o viés quadrado pode ser ignorado, podemos tentar estimar como
Se este trabalho depende muito .σ2σ2E||Z−ˆZ||2=σ2(p−p∑i=1d2id2i+λ(2−d2id2i+λ)⏟d(λ))+bias(λ)2.
E||Z−Z^||2=σ2⎛⎝⎜⎜⎜⎜⎜p−∑i=1pd2id2i+λ(2−d2id2i+λ)d(λ)⎞⎠⎟⎟⎟⎟⎟+bias(λ)2.
λλσ2σ2ˆσ2=1p−d(λ)||Z−ˆZ||2.σ^2=1p−d(λ)||Z−Z^||2.
X
Para alguns detalhes, consulte a Seção 3.4.1 e o Capítulo 7 no ESL ou talvez até o Capítulo 2 no GAM .