A validação cruzada é um substituto adequado para o conjunto de validação?

Na classificação de texto, tenho um conjunto de treinamento com cerca de 800 amostras e um conjunto de testes com cerca de 150 amostras. O conjunto de teste nunca foi usado e aguarda para ser usado até o final.

Estou usando todo o conjunto de treinamento de 800 amostras, com validação cruzada de 10 vezes ao ajustar e ajustar os classificadores e recursos. Isso significa que eu não tenho um conjunto de validação separado, mas cada 10 vezes fora, um conjunto de validação é selecionado automaticamente.

Depois de ficar satisfeito com tudo e querer entrar na etapa final da avaliação, treinarei meus classificadores em 800 amostras inteiras. E teste no conjunto de 150 amostras.

Meu entendimento está correto quanto ao uso da validação cruzada na classificação de texto? Esta prática é válida?

Outra questão na validação cruzada é:

em vez de 10 vezes, também tentei deixar uma como indicador geral de desempenho. Porque para deixar um de fora, não é possível ter informações sobre f1 / precisão / recall, pergunto-me qual é a relação entre a precisão de deixar de fora e métricas de 10 vezes?

Qualquer visão seria muito apreciada.

Editar:

Esta é uma introdução bastante interessante à validação cruzada. Também se refere a outros trabalhos de pesquisa.

— Floco
fonte

Os estimadores de deixar um para fora são imparciais, enquanto a validação cruzada de 10 vezes tende a fornecer uma tendência (para erros menores). No entanto, a imparcialidade tem o preço de uma alta variação.

— Blubb

@ Simon, acho que depende de uma complexidade do problema. Não é?

— Biostat

@ Blubb: LOO em certas situações pode ter um grande viés pessimista. A variação da LOO e uma única execução de 10 vezes o CV são geralmente muito semelhantes. O viés otimista (estimativas de erro muito baixas) aqui não vem da escolha da reamostragem, mas do fato de que a validação cruzada já é usada para otimização orientada a dados. Depois disso, é necessária outra validação independente . Isso também pode ser um loop "externo" de validação cruzada (sem viés otimista!)

— cbeleites suporta Monica

Você descreveu corretamente a maneira de trabalhar com a validação cruzada. De fato, você tem 'sorte' de ter uma validação razoável definida no final, porque muitas vezes a validação cruzada é usada para otimizar um modelo, mas nenhuma validação "real" é feita.

Como o @Simon Stelling disse em seu comentário, a validação cruzada levará a erros estimados mais baixos (o que faz sentido porque você está constantemente reutilizando os dados), mas, felizmente, este é o caso de todos os modelos, portanto, impedindo a catástrofe (ou seja: os erros são reduzidos apenas levemente para um modelo "ruim" e mais para o modelo "bom"), selecionar o modelo que apresenta melhor desempenho em um critério com validação cruzada, normalmente também será o melhor "de verdade".

Um método que às vezes é usado para corrigir um pouco os erros mais baixos, especialmente se você estiver procurando por modelos parcimoniosos, é selecionar o menor modelo / método mais simples para o qual o erro de validação cruzada esteja dentro de um SD a partir do ótimo (validação cruzada). Como a validação cruzada em si, essa é uma heurística, portanto deve ser usada com algum cuidado (se essa for uma opção: faça um gráfico dos seus erros com relação aos seus parâmetros de ajuste: isso lhe dará uma idéia se você tem resultados aceitáveis)

Dado o viés descendente dos erros, é importante não publicar os erros ou outra medida de desempenho da validação cruzada sem mencionar que eles vêm da validação cruzada (embora, seja verdade: eu já vi muitas publicações que não mencionam que o a medida de desempenho foi obtida verificando o desempenho no conjunto de dados original --- então, mencionar a validação cruzada realmente faz seus resultados valerem mais ). Para você, isso não será um problema, pois você tem um conjunto de validação.

Um aviso final: se o ajuste do seu modelo resultar em alguns concorrentes próximos, é uma boa ideia analisar os desempenhos deles no seu conjunto de validação posteriormente, mas não baseie sua seleção final no modelo: você pode, na melhor das hipóteses, usá-lo para acalmar seu desempenho . consciência, mas seu modelo "final" deve ter sido escolhido antes que você veja o conjunto de validação.

Escreveu sua segunda pergunta: acredito que Simon deu a você todas as respostas que você precisa em seu comentário, mas para completar o quadro: com frequência, é o trade-off de desvio de variação que entra em jogo. Se você sabe que, em média, alcançará o resultado correto (imparcialidade), normalmente o preço é que cada um dos seus cálculos individuais pode estar muito longe dele (alta variação). Antigamente, a imparcialidade era o nec plus ultra. Nos dias atuais, às vezes se aceita um viés (pequeno) (para que você nem saiba que a média de seus cálculos resultará no resultado correto), se resulta em menor variância. A experiência demonstrou que o saldo é aceitável com 10 vezes a validação cruzada. Para você, o viés seria apenas um problema para a otimização do seu modelo, desde que você possa estimar o critério posteriormente (de forma imparcial) no conjunto de validação. Como tal, há poucas razões para não usar a validação cruzada.

— Nick Sabbe
fonte

"mas seu modelo" final "deve ter sido escolhido antes que você veja o conjunto de validação." Agradável.

— Mooncrater 18/08/19