Estou preocupado que a precisão da previsão calculada entre cada dobra seja dependente devido à sobreposição substancial entre os conjuntos de treinamento (embora os conjuntos de previsão sejam independentes).
IMHO a sobreposição entre os conjuntos de treinamento não precisa ser uma grande preocupação aqui. Ou seja, é claro que é importante verificar se os modelos são estáveis. Estável implica que as previsões dos modelos substitutos de validação cruzada são equivalentes (ou seja, um caso independente obteria a mesma previsão por todos esses modelos) e, de fato, a validação cruzada geralmente reivindica equivalência não apenas entre os modelos substitutos, mas também com o modelo treinado em todos os modelos. casos. Portanto, essa dependência é uma consequência do que queremos ter.
Isso se aplica à pergunta típica: se eu treino um modelo nesses dados, quais são os intervalos de previsão? Se a questão é, em vez disso, se treinamos um modelo em casos dessa população, quais são os intervalos de previsão ?, não podemos responder porque essa sobreposição nos conjuntos de treinamento significa que subestimamos a variação em uma quantidade desconhecida.n
Quais são as consequências comparadas ao teste com um conjunto de testes independente?
- As estimativas de validação cruzada podem ter uma variação maior do que testar o modelo final com um conjunto de testes independente do mesmo tamanho, porque, além da variação devido aos casos de teste, enfrentamos variação devido à instabilidade dos modelos substitutos.
No entanto, se os modelos são estáveis, essa variação é pequena / desprezível. Além disso, este tipo de estabilidade pode ser medido.
O que não pode ser medido é o quão representativo todo o conjunto de dados é comparado à população da qual foi extraído. Isso inclui parte do viés do modelo final (no entanto, também um pequeno conjunto de testes independente pode ter um viés) e significa que a variação correspondente não pode ser estimada por validação cruzada.
Na prática da aplicação (desempenho do modelo treinado nesses dados), o cálculo do intervalo de previsão enfrentaria questões que IMHO são mais importantes do que a parte da validação cruzada de variação não pode detectar: por exemplo
- a validação cruzada não pode testar o desempenho para casos independentes no tempo (geralmente são necessárias previsões para casos medidos no futuro)
- os dados podem conter clusters desconhecidos e o desempenho fora do cluster pode ser importante. Os dados em cluster são essenciais, algo que você pode considerar na validação cruzada, mas você precisa saber sobre o armazenamento em cluster.
Isso é mais do que apenas uma validação cruzada versus um conjunto de teste independente: basicamente você precisa sentar e criar um estudo de validação; caso contrário, há um alto risco de que o conjunto de teste "independente" não seja tão independente. Feito isso, pode-se pensar sobre quais fatores provavelmente têm importância prática e quais podem ser negligenciados. Você pode chegar à conclusão de que, após uma análise cuidadosa, a valiação cruzada é boa o suficiente e a coisa mais sensata a ser feita, porque a validação independente seria muito cara em comparação com o possível ganho de informações.
Em conjunto, eu usaria a fórmula usual para o desvio padrão, chamaria em analogia ao e em detalhes como o teste foi realizado.sCVRMSECV