A implementação da validação cruzada influencia seus resultados?


9

Como você sabe, existem dois tipos populares de validação cruzada, dobra K e subamostragem aleatória (conforme descrito na Wikipedia ). No entanto, eu sei que alguns pesquisadores estão fazendo e publicando artigos em que algo que é descrito como um CV dobrável em K é de fato uma subamostragem aleatória; portanto, na prática, você nunca sabe o que realmente está no artigo que está lendo.
Normalmente, é claro que a diferença é imperceptível, e a minha pergunta continua - você pode pensar em um exemplo quando o resultado de um tipo é significativamente diferente de outro?

Respostas:


4

Você certamente pode obter resultados diferentes simplesmente porque treina em exemplos diferentes. Duvido muito que exista um domínio de algoritmo ou problema em que os resultados dos dois diferam de alguma maneira previsível.


Eu quis dizer resultados significativamente diferentes. Eu também acho que não há, pelo menos, um exemplo do mundo real. Ainda assim, acho que vou esperar mais um pouco.

3

Normalmente, é claro que a diferença é imperceptível, e a minha pergunta continua - você pode pensar em um exemplo quando o resultado de um tipo é significativamente diferente de outro?

Não tenho certeza de que a diferença seja imperceptível e que apenas em um exemplo ad hoc será perceptível. Os métodos de validação cruzada e de bootstrapping (subamostragem) dependem criticamente de seus parâmetros de design, e esse entendimento ainda não está completo. Em geral, os resultados na validação cruzada de dobras k dependem criticamente do número de dobras, portanto, você pode esperar sempre resultados diferentes dos que você observaria na subamostragem.

Caso em questão: digamos que você tenha um modelo linear verdadeiro com um número fixo de parâmetros. Se você usar a validação cruzada de dobras k (com um determinado k fixo) e deixar o número de observações chegar ao infinito, a validação cruzada de dobras k será assintoticamente inconsistente para a seleção do modelo, ou seja, identificará um modelo incorreto com probabilidade maior que 0. Esse resultado surpreendente é devido a Jun Shao, "Seleção de Modelo Linear por Validação Cruzada", Journal of American Statistical Association , 88 , 486-494 (1993), mas mais artigos podem ser encontrados nesse sentido.

Em geral, artigos estatísticos respeitáveis ​​especificam o protocolo de validação cruzada, exatamente porque os resultados não são invariáveis. No caso em que eles escolhem um grande número de dobras para grandes conjuntos de dados, eles observam e tentam corrigir vieses na seleção do modelo.


Não, não, não, é sobre aprendizado de máquina, não seleção de modelo.

11
Distinção interessante. Eu pensei que a seleção de modelos era fundamental para o aprendizado de máquina, em quase todos os significados do termo.
gappy

Todas essas coisas funcionam para modelos triviais (principalmente lineares) quando você tem poucos parâmetros e deseja apenas ajustá-los aos dados para dizer algo sobre isso, como você tem yex e deseja verificar se y = x ^ 2 ou y = x. Aqui falo sobre estimar erros de modelos como SVMs ou RFs, que podem ter milhares de parâmetros e ainda não são ajustados demais devido a heurísticas complexas.

Estes resultados são válidos para regressão de modelos lineares gerais com número arbitrário de variáveis ​​independentes. As variáveis ​​podem ser aprendizes arbitrários. A suposição crucial é que, à medida que o número de observações chega ao infinito, o número de alunos que descrevem o modelo verdadeiro permanece finito. Tudo isso funciona para regressão, portanto, para uma tarefa de classificação como a sua, não tenho certeza de que ajude.
395 gappy

Isso não; GLM não é aprendizado de máquina. Os verdadeiros métodos de aprendizado de máquina são sábios o suficiente para manter seu nível de complexidade independente do número crescente de objetos (se for suficiente); mesmo para modelos lineares, toda essa teoria funciona muito mal, pois a convergência é baixa.
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.