Primeiro, deixe-me esclarecer os termos usados na pergunta, como eu entendo. Normalmente, começamos com um conjunto de dados de treinamento, usamos a validação cruzada k-fold para testar diferentes modelos (ou conjuntos de hiperparâmetros) e selecionamos o melhor modelo com o menor erro CV. Portanto, a 'estimativa de validação cruzada do erro de teste' significa usar o erro CV mais baixo como erro de teste, não apenas o erro CV de um modelo aleatório (que é o caso discutido pelos cbeleites, mas não é o que normalmente fazemos). O 'erro real de teste' em questão é o erro que obtemos ao aplicar o melhor modelo de CV a um conjunto infinito de dados de teste, supondo que possamos obtê-lo. O erro de CV depende do conjunto de dados específico que possuímos, e o erro de teste real depende do melhor modelo de CV selecionado, que também depende do conjunto de dados de treinamento. Portanto, a diferença entre o erro CV e o erro de teste depende de diferentes conjuntos de dados de treinamento. Então a pergunta se torna: se repetirmos o processo acima muitas vezes com conjuntos de dados de treinamento diferentes e calcularmos a média dos dois erros, respectivamente, por que o erro CV médio é menor que o erro médio de teste, ou seja, o erro CV é tendencioso para baixo? Mas antes disso, isso sempre acontece?
Normalmente, é impossível obter muitos conjuntos de dados de treinamento e conjuntos de dados de teste contendo linhas infinitas. Mas é possível fazer isso usando dados gerados por simulação. No "capítulo 7 Model Assessment and Selection" do livro "The Elements of Statistical Learning" de Trevor Hastie, et al. , inclui esse experimento de simulação.
A conclusão é que, usando CV ou bootstrap, "... a estimativa de erro de teste para um conjunto de treinamento específico não é fácil em geral, dados apenas os dados desse mesmo conjunto de treinamento". Por "não é fácil", eles significam que o erro CV pode subestimar ou superestimar o verdadeiro erro de teste, dependendo de diferentes conjuntos de dados de treinamento, ou seja, a variação causada por diferentes conjuntos de dados de treinamento é bastante grande. E quanto ao viés? O kNN e o modelo linear que eles testaram quase não são tendenciosos: o erro CV superestima o erro de teste real de 0 a 4%, mas alguns modelos "como árvores, validação cruzada e tira de inicialização podem subestimar o erro real de 10%, porque o erro a busca pela melhor árvore é fortemente afetada pelo conjunto de validação ".
Para resumir, para um conjunto de dados de treinamento específico, o erro CV pode ser maior ou menor que o erro de teste real. Para o viés, o erro médio de CV pode variar de um pouco mais alto a muito menor do que o erro médio de teste verdadeiro, dependendo dos métodos de modelagem.
O motivo da subestimação, como mencionado acima, é que a seleção de hiperparâmetros para o melhor modelo depende, em última análise, do conjunto de dados de treinamento específico que obtemos. Um pouco mais, deixe que os melhores hiperparâmetros sejam M1 neste conjunto de dados de treinamento específico. Porém, M1 pode não ser o melhor hiperparâmetro em outro conjunto de dados de treinamento, o que significa que o erro CV mínimo é menor que o erro CV de M1. Assim, os erros CV esperados que obtemos do processo de treinamento são muito provavelmente menores que o erro CV M1 esperado. A única vez em que o erro CV mínimo de um determinado conjunto de dados de treinamento não é tendencioso é quando o melhor modelo é sempre o melhor independente dos conjuntos de dados de treinamento. Por outro lado, o erro CV também pode superestimar um pouco o verdadeiro erro de teste, conforme discutido pelos cbeleites. Isso ocorre porque o erro CV de k fold é obtido usando um pouco menos de dados de treinamento para treinar o modelo (para 10 vezes cv, use dados de 90%), ele é enviesado para cima contra o erro verdadeiro, mas não muito. Portanto, existem dois vieses em direções diferentes. Para o método de modelagem, o excesso de adequação, usando menos CV de dobra, por exemplo, 5 vezes versus 10 vezes, pode resultar em menos viés.
Tudo dito, isso não ajuda muito na prática: geralmente só obtemos um conjunto de dados 'particular'. se mantivermos entre 15% e 30% como dados de teste e selecionar o melhor modelo por CV nos demais como dados de treinamento, as chances são de que o erro CV será diferente do erro de teste, pois ambos diferem do erro de teste esperado. Podemos suspeitar que o erro CV seja muito menor que o erro de teste, mas não saberemos qual deles está mais próximo do verdadeiro erro de teste. A melhor prática pode ser apenas apresentar as duas métricas.