O hold-out é frequentemente usado como sinônimo de validação com conjunto de testes independente, embora existam diferenças cruciais entre dividir os dados aleatoriamente e projetar um experimento de validação para testes independentes.
Conjuntos de testes independentes podem ser usados para medir o desempenho da generalização que não pode ser medido por reamostragem ou validação de retenção, por exemplo, o desempenho para casos futuros desconhecidos (= casos que são medidos posteriormente, após o término do treinamento). Isso é importante para saber por quanto tempo um modelo existente pode ser usado para novos dados (pense, por exemplo, no desvio do instrumento). Mais geralmente, isso pode ser descrito como medir o desempenho da extrapolação para definir os limites de aplicabilidade.
Outro cenário em que o hold-out pode realmente ser benéfico é: é muito fácil garantir que os dados de treinamento e teste sejam separados adequadamente - muito mais fácil do que na validação de reamostragem: por exemplo
- decidir a divisão (por exemplo, designação aleatória de casos)
- a medida
- dados de medição e referência dos casos de treinamento => modelagem \ nem medições nem referências de casos de teste são entregues à pessoa que modela.
- modelo final + medidas dos casos retidos => previsão
- compare previsões com referência para casos retidos.
Dependendo do nível de separação necessário, cada etapa pode ser realizada por outra pessoa. Como primeiro nível, não entregar nenhum dado (nem mesmo as medições) dos casos de teste ao modelador permite ter certeza de que nenhum dado de teste vaza no processo de modelagem. Em um segundo nível, as medidas finais do modelo e do caso de teste poderiam ser entregues a mais alguém, e assim por diante.
Sim, você paga por isso com a menor eficiência das estimativas de espera comparadas à validação de reamostragem. Mas já vi muitos trabalhos em que suspeito que a validação de reamostragem não separa adequadamente os casos (no meu campo, temos muitos dados agrupados / hierárquicos / agrupados).
Aprendi minha lição sobre vazamentos de dados para reamostragem, retirando um manuscrito uma semana após o envio, quando descobri que havia um vazamento anteriormente não detectado (executando testes de permutação ao lado) no meu procedimento de divisão (erro de digitação no cálculo do índice).
Às vezes, o hold-out pode ser mais eficiente do que encontrar alguém que esteja disposto a dedicar tempo para verificar o código de reamostragem (por exemplo, para dados agrupados), a fim de obter o mesmo nível de certeza sobre os resultados. No entanto, o IMHO geralmente não é eficiente para fazer isso antes de você estar no estágio em que você precisa medir, por exemplo, o desempenho futuro (primeiro ponto) - em outras palavras, quando você precisa configurar um experimento de validação para o modelo existente.
OTOH, em situações de tamanho pequeno de amostra, o hold-out não é uma opção: você precisa manter casos de teste suficientes para que os resultados do teste sejam precisos o suficiente para permitir a conclusão necessária (lembre-se: 3 corretos de 3 casos de teste para classificação significam um binomial intervalo de confiança de 95% que varia muito abaixo de 50:50 de suposição!) Frank Harrell apontaria para a regra geral de que pelo menos ca. São necessários 100 casos (de teste) para medir adequadamente uma proporção [como a fração dos casos previstos corretamente] com uma precisão útil.
Atualização: há situações em que a divisão adequada é particularmente difícil de obter e a validação cruzada se torna inviável. Considere um problema com vários fatores de confusão. A divisão é fácil se esses fatores de confusão forem rigorosamente aninhados (por exemplo, um estudo com vários pacientes possui várias amostras de cada paciente e analisa várias células de cada amostra): você divide no nível mais alto da hierarquia de amostragem (em termos de paciente) . Mas você pode ter fatores de confusão independentes que não estão aninhados, por exemplo, variação ou variação diária causada por diferentes experimentadores que executam o teste. Você precisa garantir que a divisão seja independente para todosfatores de confusão no nível mais alto (os fatores de confusão aninhados serão automaticamente independentes). É muito difícil cuidar disso se alguns fatores de confusão forem identificados apenas durante o estudo, e projetar e executar um experimento de validação pode ser mais eficiente do que lidar com divisões que não deixam quase nenhum dado nem para treinamento nem para teste dos modelos substitutos.