Prova da fórmula LOOCV


18

De Uma Introdução à Aprendizagem Estatística de James et al., A estimativa de validação cruzada de saída única (LOOCV) é definida por que .

cv(n)=1nEu=1nMSEEu
MSEEu=(yEu-y^Eu)2

Sem prova, a equação (5.2) afirma que, para mínimos quadrados ou regressão polinomial (se isso se aplica à regressão em apenas uma variável é desconhecida para mim), onde " está o o valor ajustado do ajuste dos mínimos quadrados originais ( não faço ideia do que isso significa, a propósito , significa usar todos os pontos no conjunto de dados?) e é a alavancagem "definida poryii

cv(n)=1nEu=1n(yEu-y^Eu1-hEu)2
y^EuEuhEu
hEu=1n+(xEu-x¯)2j=1n(xj-x¯)2.

Como alguém prova isso?

Minha tentativa: pode-se começar observando que mas separados disso (e se bem me lembro, essa fórmula para é verdadeira apenas para regressão linear simples ...), não tenho certeza de como proceder a partir daqui.hi

y^Eu=β0 0+Eu=1kβkXk+alguns termos polinomiais de grau 2
hEu

Suas equações parecem usar para mais de uma coisa ou estou muito confuso. De qualquer maneira, uma clareza adicional seria boa. Eu
Glen_b -Reinstala Monica

@Glen_b Acabei de aprender sobre o LOOCV ontem, então talvez eu não entenda algumas coisas corretamente. Pelo que entendi, você tem um conjunto de pontos de dados, digamos . Com LOOCV, você tem para cada fixo (número inteiro positivo) algum conjunto de validação e um conjunto de testes usado para gerar um modelo ajustado para cada . Por exemplo, digamos, ajustamos nosso modelo usando regressão linear simples com três pontos de dados, . Teríamos (para ser continuado) #k V k = { ( x k , y k ) } T k = XV k k X = { ( 0 , 1 ) , ( 1 , 2 ) , ( 2 , 3 ) }X={(xi,yi):iZ+}kVk={(xk,yk)}Tk=XVkkX={(0 0,1),(1,2),(2,3)}
Clarinetist

@Glen_b e . Usando os pontos em , podemos descobrir que, usando uma regressão linear simples, obtemos o modelo . Em seguida, calculamos o usando como o conjunto de validação e obtemos (apenas usando o ponto fornecido) e , fornecendo . Ok, talvez usar o sobrescrito não tenha sido a melhor ideia - vou mudar isso no post original. t 1 ={(1,2),(2,3)} t 1 y i =X+1MSE V 1 y 1 =1 y ( 1 ) 1 =0+1=1 MSE 1 =0V1={(0 0,1)}T1={(1,2),(2,3)}T1y^Eu=X+1MSEV1y1=1y^1(1)=0 0+1=1MSE1=0 0
Clarinetist

aqui estão algumas notas de aula sobre a derivação pages.iu.edu/~dajmcdon/teaching/2014spring/s682/lectures/...
Xavier Bourret Sicotte

Respostas:


17

Mostrarei o resultado para qualquer regressão linear múltipla, independentemente de os regressores serem polinômios de . De fato, mostra um pouco mais do que você solicitou, porque mostra que cada residual LOOCV é idêntico ao resíduo ponderado por alavancagem correspondente da regressão completa, não apenas que você pode obter o erro LOOCV como em (5.2) (existe pode haver outras maneiras pelas quais as médias concordam, mesmo que nem cada termo na média seja o mesmo).Xt

Deixe-me tomar a liberdade de usar notação ligeiramente adaptada.

Primeiro mostramos que onde é a estimativa usando todos os dados e a estimativa ao deixar de fora , observação . Seja definido como um vetor de linha tal que . são os resíduos.(A) β β (t)X(t)tXt y t=Xt β u t

β^-β^(t)=(você^t1-ht)(XX)-1Xt,(UMA)
β^β^(t)X(t)tXty^t=Xtβ^você^t

A prova usa o seguinte resultado algébrico da matriz.

Seja uma matriz não singular, um vetor e um escalar. Se Então b λ λUMAbλ (A+λbb)-1

λ-1bUMA-1b
(UMA+λbb)-1=UMA-1-(λ1+λbUMA-1b)UMA-1bbUMA-1(B) 

A prova de (B) segue imediatamente da verificação

{UMA-1-(λ1+λbUMA-1b)UMA-1bbUMA-1}(UMA+λbb)=Eu.

O seguinte resultado é útil para provar (A)

(X(t)X(t))-1Xt=(11-ht)(XX)-1Xt. (C)

Prova de (C): Por (B), temos, usando , Então, encontramos t=1TXtXt=XX(X(

(X(t)X(t))-1=(XX-XtXt)-1=(XX)-1+(XX)-1XtXt(XX)-11-Xt(XX)-1Xt.
(X(t)X(t))-1Xt=(XX)-1Xt+(XX)-1Xt(Xt(XX)-1Xt1-Xt(XX)-1Xt)=(11-ht)(XX)-1Xt.

A prova de (A) agora segue de (C): Como , temos ou Então, em que a última igualdade segue de (C).( X ' ( t ) X ( t ) + X ' t X t ) β

XXβ^=Xy,
{ I k + ( X ( t ) X ( t ) ) - 1
(X(t)X(t)+XtXt)β^=X(t)y(t)+Xtyt,
{Euk+(X(t)X(t))-1XtXt}β^=β^(t)+(X(t)X(t))-1Xt(Xtβ^+você^t).
β^=β^(t)+(X(t)X(t))-1Xtvocê^t=β^(t)+(XX)-1Xtvocê^t1-ht,

Agora, observe . Multiplique em (A) por , adicione em ambos os lados e reorganize para obter, com os resíduos resultantes do uso de ( ), ou ht=Xt(XX)-1XtXtytvocê^(t)β^(t)yt-Xtβ^(t)

você^(t)=você^t+(você^t1-ht)ht
você^(t)=você^t(1-ht)+você^tht1-ht=você^t1-ht

A definição para está ausente na sua resposta. Presumo que esta seja uma matriz com a linha removida. X(t)XXt
Mpgtas

Também mencionando o fato de que também seria útil. XX=t=1TXtXt
Mpgtas

@mpiktas, sim, obrigado pelos ponteiros. Eu editei para levar o primeiro comentário em consideração. Onde exatamente o segundo ajudaria? Ou deixe no seu comentário?
Christoph Hanck

3
Ao iniciar a prova de (C), você escreve . Esse é um bom truque, mas duvido que o leitor casual esteja ciente disso. (X(t)X(t))-1=(XX-XtXt)-1
precisa saber é o seguinte

1
Dois anos depois ... Agradeço ainda mais essa resposta, agora que passei por uma sequência de modelos lineares em nível de pós-graduação. Estou reaprendendo este material com essa nova perspectiva. Você tem referências sugeridas (livros didáticos?) Que passam por derivações como as que você tem nesta resposta em detalhes?
Clarinetist
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.