Existe realmente alguma diferença entre o canivete e deixar uma validação cruzada? O procedimento parece idêntico. Estou perdendo alguma coisa?
Existe realmente alguma diferença entre o canivete e deixar uma validação cruzada? O procedimento parece idêntico. Estou perdendo alguma coisa?
Respostas:
Na validação cruzada, você calcula uma estatística nas amostras deixadas de fora. Na maioria das vezes, você prediz as amostras deixadas de fora por um modelo construído nas amostras mantidas. No jackknifing, você calcula uma estatística apenas das amostras mantidas.
Jackknife geralmente se refere a 2 processos relacionados, mas diferentes, ambos baseados em uma abordagem de deixar um fora - levando a essa mesma confusão.
Em um contexto, o canivete pode ser usado para estimar parâmetros populacionais e seus erros-padrão. Por exemplo, para usar uma abordagem de canivete para estimar a inclinação e a interceptação de um modelo de regressão simples, seria necessário:
Os pseudo-valores e as estimativas do canivete dos coeficientes também podem ser usados para determinar os erros padrão e, portanto, os intervalos de confiança. Normalmente, essa abordagem fornece intervalos de confiança mais amplos para os coeficientes, porque é uma medida de incerteza melhor e mais conservadora. Além disso, essa abordagem também pode ser usada para obter uma estimativa do viés do canivete para os coeficientes.
No outro contexto, o canivete é usado para avaliar o desempenho do modelo. Nesse caso, canivete = validação cruzada de exclusão única. Ambos se referem a deixar uma observação fora do conjunto de dados de calibração, recalibrar o modelo e prever a observação que foi deixada de fora. Essencialmente, cada observação está sendo prevista usando suas "estimativas parciais" dos preditores.
Aqui está uma pequena descrição sobre o canivete que encontrei on-line: https://www.utdallas.edu/~herve/abdi-Jackknife2010-pretty.pdf