Resposta curta: não é errado nem novo.
Estivemos discutindo esse esquema de validação sob o nome "validação de conjunto" ≈ 15, ao preparar um artigo *, mas no final nunca o referimos de fato, pois não o achamos usado na prática.
Wikipedia refere-se ao mesmo esquema de validação que a validação aleatória repetida de subamostragem ou a validação cruzada de Monte Carlo
Do ponto de vista da teoria, o conceito nos interessava porque
- é outra interpretação dos mesmos números geralmente referidos como retenção (apenas o modelo para o qual a estimativa é usada é diferente: estimativas de retenção são usadas como estimativa de desempenho para exatamente o modelo testado, este conjunto ou a validação de Monte Carlo trata o (s) modelo (s) testado (s) como modelo (s) substituto (s) e interpreta o mesmo número que a estimativa de desempenho para um modelo construído em todo o conjunto de dados - como geralmente é feito com estimativas de validação cruzada ou de validação fora da inicialização)
- e está algures no meio
- técnicas mais comuns de validação cruzada (reamostragem com substituição, interpretação como estimativa para o modelo de dados completos),
- retenção (veja acima, o mesmo cálculo + números, geralmente sem N iterações / repetições, embora com interpretação diferente)
- e out-of-bootstrap (as N iterações / repetições são típicas do out-bootstrap, mas nunca vi isso aplicado ao hold-out e [infelizmente] raramente é feito com validação cruzada).
* Beleites, C .; Baumgartner, R .; Bowman, C .; Somorjai, R .; Steiner, G .; Salzer, R. & Sowa, MG Redução da variância na estimativa do erro de classificação usando conjuntos de dados esparsos, Chemom Intell Lab Syst, 79, 91 - 100 (2005).
O erro "validação de conjunto" para N = 1 está oculto na fig. 6 (ou seja, seu viés + variação pode ser recuperado dos dados fornecidos, mas não explicitamente).
mas parece não ser ideal em termos de variação. Existem argumentos a favor ou contra o segundo procedimento?
Bem, no artigo acima, encontramos o erro total (viés² + variação) do out-of-bootstrap e repetido / iterado k- a validação cruzada dobrada para ser bem semelhante (com oob tendo uma variação um pouco menor, mas um viés mais alto - mas não fizemos o acompanhamento para verificar se / quanto desse trade-off é devido à reamostragem com / sem substituição e quanto é devido ao proporção de divisão diferente de cerca de 1: 2 para oob).
Lembre-se, no entanto, de que estou falando sobre precisão em situações de tamanho pequeno de amostra, em que o contribuinte dominante na incerteza de variação é o mesmo para todos os esquemas de reamostragem: o número limitado de amostras verdadeiras para teste e o mesmo para oob , validação cruzada ou validação de conjunto. As iterações / repetições permitem reduzir a variação causada pela instabilidade dos modelos (substitutos), mas não a incerteza de variação devido ao tamanho total limitado da amostra.
Portanto, supondo que você execute um número adequadamente grande de iterações / repetições N, eu não esperaria diferenças praticamente relevantes no desempenho desses esquemas de validação.
Um esquema de validação pode se encaixar melhor com o cenário que você tenta simular pela reamostragem.