Se você usar o jackknifing não apenas para incluir um lado de fora, mas qualquer tipo de reamostragem sem substituição, como procedimentos com dobras , considero uma opção viável e a uso regularmente, por exemplo, em
Beleites et al. : Classificação espectroscópica Raman de tecidos de astrocitoma: usando informações de referência suaves. Anal Bioanal Chem, 2011, 400, 2801-2816k
consulte também: Intervalo de confiança para precisão de classificação validada cruzada
Evito a LOO por várias razões e, em vez disso, uso um esquema iterado / repetido . No meu campo (química / espectroscopia / quimiometria), a validação cruzada é muito mais comum do que a validação out-of-bootstrap. Para os nossos dados / aplicações typcial descobrimos que i vezes iterada k vezes de validação cruzada e i ⋅ k iterações de fora-de-inicialização estimativas de desempenho tem erro total muito semelhante [Beleites et al. : Redução da variação na estimativa de erro de classificação usando conjuntos de dados esparsos. Chem.Intell.Lab.Syst., 2005, 79, 91 - 100.] .kEuki ⋅ k
xxx Isso também é aplicável ao bootstrap, mas menos diretamente.
nsnp≪ ns
np
EukEu
Normalmente, ou seja, se o modelo estiver bem configurado, 2. é necessário apenas para mostrar que é muito menor que a variação em 1. e que o modelo é razoavelmente estável. Se 2. for desprezível, é hora de considerar os modelos agregados: a agregação de modelos ajuda apenas à variação causada pela instabilidade do modelo, não pode reduzir a incerteza de variação na medição de desempenho devido ao número finito de casos de teste .
Eukk ⋅kk
A vantagem da validação cruzada aqui é que você obtém uma separação clara entre a incerteza causada pela instabilidade do modelo e a incerteza causada pelo número finito de casos de teste. A desvantagem correspondente é obviamente que, se você esquecer de levar em consideração o número finito de casos reais, subestimará severamente a verdadeira incerteza. No entanto, isso aconteceria também com o bootstrap (embora em menor grau).
Até agora, o raciocínio se concentra em medir o desempenho do modelo derivado para um determinado conjunto de dados. Se você considerar um conjunto de dados para o aplicativo fornecido e o tamanho da amostra fornecida, há uma terceira contribuição para a variação que fundamentalmente não pode ser medida pela validação de reamostragem, consulte, por exemplo, Bengio & Grandvalet: Nenhum estimador imparcial da variância da cruz K-Fold -Validação, Journal of Machine Learning Research, 5, 1089-1105 (2004). , também temos números mostrando essas três contribuições em Beleites et al. : Planejamento de tamanho de amostra para modelos de classificação., Anal Chim Acta, 760, 25-33 (2013). DOI: 10.1016 / j.aca.2012.11.007 )
Eu acho que o que acontece aqui é o resultado da suposição de que a reamostragem é semelhante ao desenho de uma nova amostra completa.
Isso é importante para comparar algoritmos / estratégias / heurísticas de construção de modelo, em vez de construir um modelo específico para a aplicação e validar esse modelo.