A validação cruzada repetida deve ser usada para avaliar modelos preditivos?

Me deparei com este artigo de 2012 de Gitte Vanwinckelen e Hendrik Blockeel questionando a utilidade da validação cruzada repetida, que se tornou uma técnica popular para reduzir a variação da validação cruzada.

Os autores demonstraram que, embora a validação cruzada repetida diminua a variação das previsões do modelo, uma vez que o mesmo conjunto de dados de amostra está sendo amostrado novamente, a média das estimativas de validação cruzada amostradas converge para uma estimativa tendenciosa da verdadeira precisão preditiva e, portanto, não é útil.

A validação cruzada repetida deve ser usada apesar dessas limitações?

cross-validation

— RobertF
fonte

Na minha experiência, a validação cruzada (repetida ou não) não fornece uma estimativa muito boa da precisão preditiva. Mas é muito útil para comparar o desempenho preditivo de diferentes modelos. É uma boa maneira de escolher entre modelos, mas não é uma boa maneira de estimar o desempenho de um único modelo.

— Solhador

@ Flounderer Esse é um bom ponto. Minha interpretação do artigo é que não podemos fazer comparações significativas de modelos com base na validação cruzada repetida versus validação cruzada não repetida. Você está tentando extrair uma quantidade razoável de informações dos dados. Ou isso está incorreto?

— RobertF

O argumento que o jornal parece estar fazendo parece estranho para mim.

De acordo com o artigo, o objetivo do CV é estimar , o desempenho preditivo esperado do modelo em novos dados, dado que o modelo foi treinado no conjunto de dados observado . Ao realizarmos CV fold, obtém-se uma estimativa deste número. Por causa do particionamento aleatória de em dobras, isto é uma variável aleatória com média e variância . Em contraste, o CV -vezes repetido produz uma estimativa com a mesma média $\alpha_2$ $S$ $k$ $\hat A$ $S$ $k$ $\hat A \sim f(A)$ $\mu_k$ $\sigma^2_k$ $n$ mas variância menor . $\mu_k$ $\sigma^2_k/n$

Obviamente, . Esse viés é algo que temos que aceitar. $\alpha_2\ne \mu_k$

No entanto, o erro esperado será maior para o menor , e será a maior para , pelo menos, com base em hipóteses sobre razoáveis , por exemplo, quando . Em outras palavras, o CV repetido permite obter uma estimativa mais precisa de $\mathbb E\big[|\alpha_2-\hat A|^2\big]$ $n$ $n=1$ $f(A)$ $\hat A\mathrel{\dot\sim} \mathcal N(\mu_k,\sigma^2_k/n)$ $\mu_k$ e isso é bom porque fornece uma estimativa mais precisa de . $\alpha_2$

Portanto, o CV repetido é estritamente mais preciso que o CV não repetido.

Os autores não discutem com isso! Em vez disso, afirmam, com base nas simulações, que

reduzir a variância [repetindo CV] não é, em muitos casos, muito útil e, essencialmente, um desperdício de recursos computacionais.

Isso apenas significa que em suas simulações foi bem baixo; e, de fato, o tamanho de amostra mais baixo que eles usaram foi , o que provavelmente é grande o suficiente para produzir pequenos . (A diferença nas estimativas obtidas com CV não repetido e CV com repetição de 30 vezes é sempre pequena.) Com tamanhos de amostra menores, pode-se esperar uma variação maior entre repetições. $\sigma^2_k$ $200$ $\sigma^2_k$

CAVEAT: Intervalos de confiança!

Outro ponto que os autores estão fazendo é que

o relato de intervalos de confiança [em repetidas validações cruzadas] é enganoso.

Parece que eles estão se referindo a intervalos de confiança para a média nas repetições de CV. Concordo plenamente que isso é uma coisa sem sentido a relatar! Quanto mais vezes o CV for repetido, menor será o IC, mas ninguém está interessado no IC em torno da nossa estimativa de ! Preocupamo-nos com o IC em torno da nossa estimativa de . $\mu_k$ $\alpha_2$

Os autores também relatam ICs para o CV não repetido, e não está totalmente claro para mim como esses ICs foram construídos. Acho que esses são os ICs para as médias nas dobras. Eu argumentaria que esses ICs também são praticamente sem sentido! $k$

Veja um de seus exemplos: a precisão do adultconjunto de dados com o algoritmo NB e o tamanho da amostra de 200. Eles obtêm 78,0% com CV não repetido, IC (72,26, 83,74), 79,0% (77,21, 80,79) com CV repetido 10 vezes e 79,1% (78,07, 80,13) com CV repetido 30 vezes. Todos esses ICs são inúteis, incluindo o primeiro. A melhor estimativa de é 79,1%. Isso corresponde a 158 sucessos em 200. Isso gera um intervalo de confiança binomial de 95% de (72,8, 84,5) - mais amplo ainda que o primeiro relatado. Se eu quis relatar algum IC, este é o que eu denunciaria. $\mu_k$

CAVEAT MAIS GERAL: variação do CV.

Você escreveu esse CV repetido

tornou-se uma técnica popular para reduzir a variação da validação cruzada.

Deve-se deixar bem claro o que se quer dizer com "variação" do CV. CV repetido reduz a variância da estimativa de . Observe que, no caso de CV de corte único (LOOCV), quando , essa variação é igual a zero. No entanto, é comum dizer-se que o LOOCV tem, na verdade, a maior variação de todos os CV possíveis com dobra . Veja, por exemplo, aqui: Variância e viés na validação cruzada: por que o CV de exclusão única tem uma variação maior? $\mu_k$ $k=N$ $k$

Por que é que? Isto é porque LOOCV tem a maior variância como uma estimativa de que é o desempenho preditivo esperado do modelo em novos dados quando construído sobre um novo conjunto de dados com o mesmo tamanho como . Esta é uma questão completamente diferente. $\alpha_1$ $S$

— ameba diz Restabelecer Monica
fonte

Espero que o @cbeleites perceba esse tópico e comente aqui ou deixe sua própria resposta: eu sei que ela está (ou estava) usando muito o CV repetido e acho que defendeu a computação da variabilidade em relação às repetições como uma medida da estabilidade do modelo. Mas não acho que ela calcule um IC em vez de repetições.

— ameba diz Restabelecer Monica

Obrigado pela explicação clara do artigo. Então, para resumir sua posição, quando você estado "Em outras palavras, CV repetida permite obter uma estimativa mais precisa de

e é uma coisa boa porque dá uma estimativa mais precisa de

" você apoiar o uso de CV repetido como um meio para comparar com modelos de medidas mais precisas da

(mesmo que não seja uma medida mais precisa da

). Ignore os ICs do CV e concentre-se na comparação da média de

s para diferentes modelos.

μ_{k}

$\mu_k$

α_{2}

$\alpha_2$

μ_{k}

$\mu_k$

α_{2}

$\alpha_2$

μ_{k}

$\mu_k$

— RobertF

@RobertF: Eu estava falando (seguindo o artigo da V&B) sobre estimar o desempenho do modelo. Minha tese é que o CV repetido é mais preciso que o não repetido, e acho que é indubitável (a V&R argumenta que a diferença na precisão tende a não ser tão importante na prática). Comparar dois modelos é muito mais complicado, porque digamos que você execute o CV e obtenha 70% para um modelo e 71% para outro modelo. É uma diferença "significativa"? Bem, esse é um problema complicado, sem uma resposta definitiva. E é independente da questão repetida / não repetida.

— Ameba diz Reinstate Monica

Alimento para o pensamento: appliedpredictivemodeling.com/blog/2014/11/27/...

— shadowtalker

Bom trabalho. Recompensa concedida. Eu acho que eu iria resumir a moral da história como: validação cruzada repetida só pode ser esperado para ser útil quando

é pequeno, o que é mais provável para amostras relativamente pequenas. A questão de quão bem a validação cruzada estima erro de teste usando o conjunto de dados de treinamento fornecido , versus erro de teste esperado usando um conjunto de dados de treinamento aleatório do mesmo tamanho, é discutida na seção 7.12 do livro de Hastie, Tibshirani e Friedman (2009). Hastie et al. concluir que é melhor neste último.

σ_{k}

$\sigma_k$

— Kodiologist