Encontrei definições possivelmente conflitantes para a estatística de validação cruzada (CV) e para a estatística de validação cruzada generalizada (GCV) associada a um modelo linear (com um vetor de erro normal e homoscedástico \ símbolo de negrito \ varepsilon ).
Por um lado, Golub, Heath & Wahba definem a estimativa GCV como (p. 216)
o minimizador de fornecido por
onde
Por outro lado, Efron define o mesmo conceito que (p. 24), mas atribui a introdução desse conceito a Craven & Wahba, onde sua definição (p. 377) é essencialmente a mesma como a definição acima mencionada de Golub, Heath & Wahba.
Isso significa que minimiza ?
Da mesma forma, Golub, Heath & Wahba definem a estimativa CV de (p. 217) como o minimizador de
onde é a estimativa
de com o ésimo ponto de dados omitido.
Os autores atribuem a introdução da estimativa CV (também chamada de estimativa PRESS) a Allen ("Allen's PRESS", ibid.) No entanto, no artigo de Allen, a estimativa PRESS é definida (p. 126) como (no artigo de Efron, é definido como (p. 24)).
Novamente, isso significa que minimiza ?
Allen, David M. A relação entre seleção de variáveis e documentação de dados e um método para previsão. Technometrics, vol. 16, nº 1 (fevereiro de 1974), pp. 125-127
Craven, Peter e Wahba, Grace. Suavização de dados ruidosos com funções de spline. Numerische Mathematik 31, (1979), pp. 377-403
Efron, Bradley. Quão tendenciosa é a taxa de erro aparente de uma regressão logística? Relatório técnico no. 232. Departamento de Estatística, Universidade de Stanford (abril de 1985)
Golub, Gene H., Heath e Grace Wahba. Validação cruzada generalizada como método para escolher um bom parâmetro de cume. Technometrics, vol. 21, No. 2 (maio de 1979), pp. 215-223