Em seu artigo Seleção de modelo linear por validação cruzada , Jun Shao mostra que, para o problema de seleção de variáveis na regressão linear multivariada, o método de validação cruzada de sobreaquecimento (LOOCV) é 'assintoticamente inconsistente'. Em inglês simples, ele tende a selecionar modelos com muitas variáveis. Em um estudo de simulação, Shao mostra que, mesmo com apenas 40 observações, o LOOCV pode ter um desempenho inferior a outras técnicas de validação cruzada.
Este artigo é um tanto controverso e um pouco ignorado (10 anos após sua publicação, meus colegas de quimiometria nunca ouviram falar dele e estavam felizes em usar LOOCV para seleção de variáveis ...). Também há uma crença (eu sou culpado disso), de que seus resultados se estendem um pouco além do escopo limitado original.
A questão, então: até que ponto esses resultados se estendem? Eles são aplicáveis aos seguintes problemas?
- Seleção de variáveis para regressão logística / GLM?
- Seleção de variáveis para a classificação Fisher LDA?
- Seleção de variáveis usando SVM com espaço finito (ou infinito) de kernel?
- Comparação de modelos na classificação, digamos SVM usando diferentes kernels?
- Comparação de modelos em regressão linear, digamos, comparando MLR com regressão de Ridge?
- etc.