Existe algum uso contemporâneo do canivete?

A questão: o bootstrapping é superior ao jackknifing; no entanto, estou me perguntando se há casos em que o jackknifing é a única ou pelo menos uma opção viável para caracterizar a incerteza das estimativas de parâmetros. Além disso, em situações práticas, o quão tendencioso / impreciso é o canivete em relação ao bootstrapping, e os resultados do canivete podem fornecer informações preliminares antes que um bootstrap mais complicado seja desenvolvido?

Algum contexto: um amigo está usando um algoritmo de aprendizado de máquina de caixa preta ( MaxEnt ) para classificar dados geográficos que são "somente presença" ou "somente positivos". A avaliação geral do modelo geralmente é feita usando validação cruzada e curvas ROC. No entanto, ela está usando a saída do modelo para derivar uma única descrição numérica da saída do modelo e gostaria de um intervalo de confiança em torno desse número; Jackknifing parece ser uma maneira razoável de caracterizar a incerteza em torno desse valor. O bootstrapping não parece relevante porque cada ponto de dados é um local exclusivo em um mapa que não pode ser amostrado novamente com a substituição. O programa de modelagem em si pode, em última análise, fornecer o que ela precisa; no entanto, estou interessado em geral se / quando o jackknifing puder ser útil.

— N Brouwer
fonte

Tais aplicativos de mapeamento - fazendo estimativas a partir de locais amostrados discretos - são precisamente aqueles em que observei o uso extensivo do jackknifing, pela razão que você indicar. É um procedimento padrão realizado preliminarmente para executar o kriging, por exemplo.

— whuber

Em algumas configurações de amostra baixa, como a amostra de bootstrap com substituição, toda a matriz de dados pode se tornar singular, sendo impossível encaixar muitos modelos.

— rep_ho 5/07

Se você usar o jackknifing não apenas para incluir um lado de fora, mas qualquer tipo de reamostragem sem substituição, como procedimentos com dobras , considero uma opção viável e a uso regularmente, por exemplo, em Beleites et al. : Classificação espectroscópica Raman de tecidos de astrocitoma: usando informações de referência suaves. Anal Bioanal Chem, 2011, 400, 2801-2816 $k$

consulte também: Intervalo de confiança para precisão de classificação validada cruzada

Evito a LOO por várias razões e, em vez disso, uso um esquema iterado / repetido . No meu campo (química / espectroscopia / quimiometria), a validação cruzada é muito mais comum do que a validação out-of-bootstrap. Para os nossos dados / aplicações typcial descobrimos que vezes iterada vezes de validação cruzada e iterações de fora-de-inicialização estimativas de desempenho tem erro total muito semelhante [Beleites et al. : Redução da variação na estimativa de erro de classificação usando conjuntos de dados esparsos. Chem.Intell.Lab.Syst., 2005, 79, 91 - 100.] . $k$ $i$ $k$ $i \cdot k$

$x$ $x$ $x$ Isso também é aplicável ao bootstrap, mas menos diretamente.

$n_s$ $n_p \ll n_s$

$n_p$
$i$ $k$ $i$

Normalmente, ou seja, se o modelo estiver bem configurado, 2. é necessário apenas para mostrar que é muito menor que a variação em 1. e que o modelo é razoavelmente estável. Se 2. for desprezível, é hora de considerar os modelos agregados: a agregação de modelos ajuda apenas à variação causada pela instabilidade do modelo, não pode reduzir a incerteza de variação na medição de desempenho devido ao número finito de casos de teste .

$i$ $k$ $k \cdot$ $k$ $k$

A vantagem da validação cruzada aqui é que você obtém uma separação clara entre a incerteza causada pela instabilidade do modelo e a incerteza causada pelo número finito de casos de teste. A desvantagem correspondente é obviamente que, se você esquecer de levar em consideração o número finito de casos reais, subestimará severamente a verdadeira incerteza. No entanto, isso aconteceria também com o bootstrap (embora em menor grau).

Até agora, o raciocínio se concentra em medir o desempenho do modelo derivado para um determinado conjunto de dados. Se você considerar um conjunto de dados para o aplicativo fornecido e o tamanho da amostra fornecida, há uma terceira contribuição para a variação que fundamentalmente não pode ser medida pela validação de reamostragem, consulte, por exemplo, Bengio & Grandvalet: Nenhum estimador imparcial da variância da cruz K-Fold -Validação, Journal of Machine Learning Research, 5, 1089-1105 (2004). , também temos números mostrando essas três contribuições em Beleites et al. : Planejamento de tamanho de amostra para modelos de classificação., Anal Chim Acta, 760, 25-33 (2013). DOI: 10.1016 / j.aca.2012.11.007 )
Eu acho que o que acontece aqui é o resultado da suposição de que a reamostragem é semelhante ao desenho de uma nova amostra completa.

Isso é importante para comparar algoritmos / estratégias / heurísticas de construção de modelo, em vez de construir um modelo específico para a aplicação e validar esse modelo.

— cbeleites suporta Monica
fonte