A validação de retenção é uma aproximação melhor de "obter novos dados" do que o CV dobrável em k?

Estive repensando uma resposta que dei a uma pergunta há algumas semanas

A validação cruzada de retenção produz um único conjunto de testes que pode ser usado repetidamente para demonstração. Todos nós concordamos que isso é, de muitas maneiras, uma característica negativa, uma vez que o conjunto estendido pode se tornar não representativo por acaso. Além disso, você pode se ajustar demais aos dados de teste da mesma maneira que pode se ajustar aos dados de treinamento.

No entanto, parece-me que a natureza estática de uma amostra estendida é uma melhor aproximação de "obter mais dados" do que o CV com dobras k e evita a questão da média das dobras. Não posso, no entanto, apresentar nenhuma base estatística para esse sentimento que tenho. Existe alguma lógica na minha intuição?

Por exemplo, o que eu tenho em mente para um próximo projeto é primeiro usar a validação de espera para criar e testar um modelo e, em seguida, como uma etapa de validação redesenhar o conjunto de espera várias vezes para mostrar que minhas estimativas de erro de previsão ( no conjunto de teste) são robustos ao erro de amostragem no conjunto de teste. Esta é uma má ideia por algum motivo? Esta pergunta foi feita antes, mas nunca recebeu uma resposta.

cross-validation

— shadowtalker
fonte

IMHO, uma das piores propriedades da validação de retenção é psicológica, em vez de estatística: vejo muita retenção, que é interpretada como se fosse um experimento de validação independente (com independência já no nível experimental), embora muitas das problemas cruciais que eu vejo com a validação de reamostragem também podem e acontecerão da mesma forma com o hold-out (qualquer problema que surja de divisão inadequada).

Fora isso, IMHO é quase o mesmo que reamostrar (pelo menos como eu já vi na prática). Diferenças são

o número total de casos testados realmente diferentes é menor (e, consequentemente, a estimativa é menos certa).
Com a retenção, o desempenho é reivindicado para o modelo realmente testado, não para um modelo realmente não testado construído a partir do rastreamento de retenção mais os dados de teste de retenção. A reamostragem afirma que o desempenho medido é uma boa aproximação ao desempenho do último modelo. Mas também vi a abordagem de retenção usada dessa maneira ("validação de conjunto").

Esbensen e Geladi: Princípios de Validação Adequada: uso e abuso de re-amostragem para validação, Journal of Chemometrics, 24 (3-4), 168-187 argumenta que, em termos práticos, ambas não são aproximações muito boas para conjuntos de dados (validação experimentos) que permitem medir as características de desempenho realmente interessantes.

você pode se ajustar demais aos dados de teste da mesma maneira que pode se ajustar aos dados de treinamento.

Igual a qualquer outra validação: se você fizer modelagem / seleção de modelo orientada a dados, será necessário outro nível de validação independente. Não vejo nenhuma diferença aqui entre esquemas de espera e reamostragem.

primeiro usando a validação de espera para criar e testar um modelo e, em seguida, como uma etapa de validação redesenhando o conjunto de espera várias vezes para mostrar que minhas estimativas de erro de previsão (no conjunto de teste) são robustas para erro de amostragem no teste conjunto. Esta é uma má ideia por algum motivo?

Acho que sim: IMHO, uma instalação aninhada deve ser usada
(a menos que você queira sugerir que a validação de espera pode e deve ser repetida também - essa é uma abordagem válida que difere da validação de conjunto repetida / repetida apenas pela interpretação : se a declaração de desempenho é sobre os vários modelos realmente testados ou se é extrapolada para o modelo criado com todos os dados).

— cbeleites descontentes com o SX
fonte