Apenas para adicionar um pouco à resposta de @SubravetiSuraj (+1)
A validação cruzada fornece uma estimativa de desempenho pessimista e enviesada, porque a maioria dos modelos estatísticos melhorará se o conjunto de treinamento for maior. Isso significa que a validação cruzada k-fold estima o desempenho de um modelo treinado em um conjunto de dados 100 * (k-1) / k% dos dados disponíveis, em vez de em 100% deles. Portanto, se você executar a validação cruzada para estimar o desempenho e usar um modelo treinado em todos os dados para uso operacional, ele terá um desempenho um pouco melhor do que o sugerido pela estimativa de validação cruzada.
A validação cruzada de exclusão única é aproximadamente imparcial , porque a diferença de tamanho entre o conjunto de treinamento usado em cada dobra e o conjunto de dados inteiro é apenas um padrão único. Há um artigo sobre isso de Luntz e Brailovsky (em russo).
Luntz, Aleksandr e Viktor Brailovsky. "Na estimativa de caracteres obtidos no procedimento estatístico de reconhecimento." Technicheskaya Kibernetica 3.6 (1969): 6-12.
Veja também
Estimativa das taxas de erro na análise discriminante Peter A. Lachenbruch e M. Ray Mickey Technometrics vol. 10, Iss. 1,1968
No entanto, embora a validação cruzada de exclusão única seja aproximadamente imparcial, ela tende a ter uma alta variação (portanto, você obteria estimativas muito diferentes se repetisse a estimativa com diferentes amostras iniciais de dados da mesma distribuição). Como o erro do estimador é uma combinação de desvio e variação, se a validação cruzada de exclusão é melhor que a validação cruzada de 10 vezes depende de ambas as quantidades.
Agora, a variação no ajuste do modelo tende a ser maior se for ajustada a um pequeno conjunto de dados (pois é mais sensível a qualquer artefato de ruído / amostragem na amostra de treinamento específica usada). Isso significa que a validação cruzada de 10 vezes provavelmente terá uma alta variação (além de um viés mais alto) se você tiver apenas uma quantidade limitada de dados, pois o tamanho do conjunto de treinamento será menor que o do LOOCV. Portanto, a validação cruzada k-fold também pode ter problemas de variação, mas por um motivo diferente. É por isso que LOOCV geralmente é melhor quando o tamanho do conjunto de dados é pequeno.
No entanto, na minha opinião, o principal motivo para usar LOOCV é computacionalmente barato para alguns modelos (como regressão linear, a maioria dos métodos de kernel, classificadores de vizinhos mais próximos etc.) e, a menos que o conjunto de dados seja muito pequeno, eu usaria Validação cruzada de 10 vezes, se couber no meu orçamento computacional, ou melhor ainda, na estimativa e na bagagem de inicialização.