Por que os pesquisadores usam a validação cruzada de 10 vezes em vez de testar em um conjunto de validação?

23

Eu li muitos artigos de pesquisa sobre classificação de sentimentos e tópicos relacionados.

A maioria deles usa validação cruzada de 10 vezes para treinar e testar classificadores. Isso significa que nenhum teste / validação separado é feito. Por que é que?

Quais são as vantagens / desvantagens dessa abordagem, especialmente para quem faz pesquisa?

classification cross-validation

— user18075
fonte

3

Tem certeza de que nenhum teste separado foi realizado?

— Douglas Zare

17

Isso não é um problema se o CV estiver aninhado , ou seja, todas as otimizações, seleções de recurso e modelo, sejam elas próprias CV ou não, estão envolvidas em um grande CV.

Como isso se compara a ter um conjunto de validação extra? Embora o conjunto de validação seja geralmente apenas uma parte mais ou menos selecionada aleatoriamente de todos os dados, é simplesmente o equivalente a uma iteração do CV. Para esse fim, é realmente um método pior, porque pode ser facilmente influenciado por (com sorte) um conjunto de validação feliz / desafortunadamente selecionado ou escolhido como cereja.

A única exceção a isso são séries temporais e outros dados em que a ordem do objeto é importante; mas eles requerem tratamento especial de qualquer maneira.

— Gala
fonte

16

O principal motivo é que o estimador de validação cruzada com dobra k tem uma variação menor do que um único estimador de conjunto de espera, o que pode ser muito importante se a quantidade de dados disponíveis for limitada. Se você tiver um único conjunto de espera, em que 90% dos dados são usados para treinamento e 10% usados para teste, o conjunto de testes é muito pequeno, portanto haverá muita variação na estimativa de desempenho para diferentes amostras de dados, ou para diferentes partições dos dados para formar conjuntos de treinamento e teste. A validação k-fold reduz essa variação calculando a média de k diferentes partições, portanto, a estimativa de desempenho é menos sensível ao particionamento dos dados. Você pode ir ainda mais longe através da validação cruzada repetida de dobras k, em que a validação cruzada é realizada usando particionamentos diferentes dos dados para formar k subconjuntos,

Observe, no entanto, todas as etapas do procedimento de ajuste de modelo (seleção de modelo, seleção de recurso etc.) devem ser executadas independentemente em cada dobra do procedimento de validação cruzada, ou a estimativa de desempenho resultante será otimizada de maneira otimista.

— Dikran Marsupial
fonte

9

[EDITADO à luz do comentário]

Eu acho que há um problema se você usar os resultados do CV para selecionar entre vários modelos.

O CV permite que você use o conjunto de dados inteiro para treinar e testar um modelo / método, enquanto é capaz de ter uma idéia razoável de quão bem ele será generalizado. Mas se você estiver comparando vários modelos, meu instinto é que a comparação de modelos consuma o nível extra de isolamento de teste de trem que o CV fornece, portanto o resultado final não será uma estimativa razoável da precisão do modelo escolhido.

Então, eu acho que se você criar vários modelos e escolher um com base em seu CV, estará sendo otimista demais com o que encontrou. Seria necessário outro conjunto de validação para ver o quão generalizado o vencedor.

— Wayne
fonte

Obrigado. Está certo. Mas minha pergunta foi especialmente sobre por que pesquisar documentos falta de uma validação final? Existe uma razão adequada? Trata-se de menos dados ou porque o CV faz um bom trabalho e não é necessária uma validação separada?

— user18075

5

Y

$Y$

7

Na minha experiência, o principal motivo é geralmente que você não tem amostras suficientes.
No meu campo (classificação de amostras biológicas / médicas), algumas vezes um conjunto de testes é mantido em separado, mas muitas vezes compreende apenas alguns casos. Nesse caso, os intervalos de confiança são geralmente muito amplos para serem úteis.
Outra vantagem da validação cruzada repetida / iterada ou validação out-of-bootstrap é que você cria vários modelos "substitutos". Estes são assumidos como iguais. Caso contrário, os modos são instáveis. Você pode realmente medir essa instabilidade (em relação à troca de alguns casos de treinamento) comparando os modelos substitutos em si ou as previsões que os modelos substitutos diferentes fazem para o mesmo caso.
Este artigo de Esbensen & Geladi oferece uma boa discussão sobre algumas limitações da validação cruzada.
Você pode cuidar da maioria deles, mas um ponto importante que não pode ser abordado pela validação de reamostragem é o desvio, que está relacionado ao ponto do mbq:

A única exceção a isso são séries temporais e outros dados em que a ordem do objeto é importante

Deriva significa que, por exemplo, a resposta de um instrumento / calibração verdadeira muda lentamente ao longo do tempo. Portanto, o erro de generalização para casos desconhecidos pode não ser o mesmo que para casos futuros desconhecidos . Você chega a instruções como "refazer calibração diariamente / semanalmente / ..." se encontrar desvio durante a validação, mas isso precisa de conjuntos de testes adquiridos sistematicamente depois dos dados de treinamento.
(Você pode fazer divisões "especiais" que levam em consideração o tempo de aquisição, se o seu experimento for planejado de acordo, mas geralmente isso não cobre o tempo que você deseja testar para detectar a deriva)

— cbeleites suporta Monica
fonte