O argumento que o jornal parece estar fazendo parece estranho para mim.
De acordo com o artigo, o objetivo do CV é estimar , o desempenho preditivo esperado do modelo em novos dados, dado que o modelo foi treinado no conjunto de dados S observado . Ao realizarmos k CV fold, obtém-se uma estimativa Um deste número. Por causa do particionamento aleatória de S em k dobras, isto é uma variável aleatória Um ~ f ( A ) com média μ k e variância σ 2 K . Em contraste, o CV n -vezes repetido produz uma estimativa com a mesma médiaα2SkA^SkA^∼f(A)μkσ2kn mas variância menor σ 2 k / n .μkσ2k/n
Obviamente, . Esse viés é algo que temos que aceitar.α2≠μk
No entanto, o erro esperado será maior para o menor n , e será a maior para n = 1 , pelo menos, com base em hipóteses sobre razoáveis f ( A ) , por exemplo, quando um ˙ ~ N ( μ k , σ 2 k / n ) . Em outras palavras, o CV repetido permite obter uma estimativa mais precisa de μ kE[|α2−A^|2]nn=1f(A)A^∼˙N(μk,σ2k/n)μke isso é bom porque fornece uma estimativa mais precisa de .α2
Portanto, o CV repetido é estritamente mais preciso que o CV não repetido.
Os autores não discutem com isso! Em vez disso, afirmam, com base nas simulações, que
reduzir a variância [repetindo CV] não é, em muitos casos, muito útil e, essencialmente, um desperdício de recursos computacionais.
Isso apenas significa que em suas simulações foi bem baixo; e, de fato, o tamanho de amostra mais baixo que eles usaram foi 200 , o que provavelmente é grande o suficiente para produzir pequenos σ 2 k . (A diferença nas estimativas obtidas com CV não repetido e CV com repetição de 30 vezes é sempre pequena.) Com tamanhos de amostra menores, pode-se esperar uma variação maior entre repetições.σ2k200σ2k
CAVEAT: Intervalos de confiança!
Outro ponto que os autores estão fazendo é que
o relato de intervalos de confiança [em repetidas validações cruzadas] é enganoso.
Parece que eles estão se referindo a intervalos de confiança para a média nas repetições de CV. Concordo plenamente que isso é uma coisa sem sentido a relatar! Quanto mais vezes o CV for repetido, menor será o IC, mas ninguém está interessado no IC em torno da nossa estimativa de ! Preocupamo-nos com o IC em torno da nossa estimativa de α 2 .μkα2
Os autores também relatam ICs para o CV não repetido, e não está totalmente claro para mim como esses ICs foram construídos. Acho que esses são os ICs para as médias nas dobras. Eu argumentaria que esses ICs também são praticamente sem sentido!k
Veja um de seus exemplos: a precisão do adult
conjunto de dados com o algoritmo NB e o tamanho da amostra de 200. Eles obtêm 78,0% com CV não repetido, IC (72,26, 83,74), 79,0% (77,21, 80,79) com CV repetido 10 vezes e 79,1% (78,07, 80,13) com CV repetido 30 vezes. Todos esses ICs são inúteis, incluindo o primeiro. A melhor estimativa de é 79,1%. Isso corresponde a 158 sucessos em 200. Isso gera um intervalo de confiança binomial de 95% de (72,8, 84,5) - mais amplo ainda que o primeiro relatado. Se eu quis relatar algum IC, este é o que eu denunciaria.μk
CAVEAT MAIS GERAL: variação do CV.
Você escreveu esse CV repetido
tornou-se uma técnica popular para reduzir a variação da validação cruzada.
Deve-se deixar bem claro o que se quer dizer com "variação" do CV. CV repetido reduz a variância da estimativa de . Observe que, no caso de CV de corte único (LOOCV), quando k = N , essa variação é igual a zero. No entanto, é comum dizer-se que o LOOCV tem, na verdade, a maior variação de todos os CV possíveis com dobra k . Veja, por exemplo, aqui: Variância e viés na validação cruzada: por que o CV de exclusão única tem uma variação maior?μkk = Nk
Por que é que? Isto é porque LOOCV tem a maior variância como uma estimativa de que é o desempenho preditivo esperado do modelo em novos dados quando construído sobre um novo conjunto de dados com o mesmo tamanho como S . Esta é uma questão completamente diferente.α1S