Como escolher os tamanhos de conjunto de treinamento, validação cruzada e teste para pequenos dados de tamanho de amostra?

10

Suponha que eu tenha um tamanho pequeno de amostra, por exemplo, N = 100 e duas classes. Como devo escolher os tamanhos de treinamento, validação cruzada e conjunto de testes para aprendizado de máquina?

Eu escolheria intuitivamente

Tamanho do conjunto de treinamento como 50
Conjunto de validação cruzada tamanho 25 e
Teste o tamanho como 25.

Mas provavelmente isso faz mais ou menos sentido. Como devo realmente decidir esses valores? Posso tentar opções diferentes (embora eu ache que não é tão preferível ... maior possibilidade de mais aprendizado)?

E se eu tivesse mais de duas aulas?

— Husa
fonte

2

100 é muito pequeno para mim. Eu optaria por uma estratégia de exclusão única para validação cruzada e avaliação de teste.

— Memming

Não vi nenhuma literatura sobre isso (tamanhos mínimos de amostra para validação). Não sei por que. Parece uma questão importante.

— charles

15

Você certamente encontrou a pergunta muito semelhante: escolha de K na validação cruzada K-fold ?
(Incluindo o link para o trabalho de Ron Kohavi)
Se o tamanho da sua amostra já for pequeno, recomendo evitar qualquer otimização orientada a dados. Em vez disso, restrinja-se a modelos em que você pode corrigir hiperparâmetros com seu conhecimento sobre modelo e aplicativo / dados. Isso torna desnecessário um dos níveis de validação / teste, deixando mais de alguns casos para treinamento dos modelos substitutos na validação cruzada restante.
IMHO, você de qualquer maneira não pode pagar modelos muito sofisticados com esse tamanho de amostra. E quase certamente você não pode se dar ao luxo de fazer comparações significativas de modelos (com certeza não, a menos que use regras de pontuação adequadas e técnicas de análise emparelhadas).
Essa decisão é muito mais importante do que a escolha precisa de (por exemplo, 5 vezes vs. 10 vezes) - com a importante exceção de deixar uma de fora não é $k$ recomendado em geral.
Curiosamente, com esses problemas de classificação de tamanho de amostra muito pequeno, a validação geralmente é mais difícil (em termos de necessidades de tamanho de amostra) em comparação com o treinamento de um modelo decente. Se você precisar de alguma literatura sobre isso, consulte, por exemplo, nosso artigo sobre planejamento de tamanho de amostra:
Beleites, C. e Neugebauer, U. e Bocklitz, T. e Krafft, C. e Popp, J .: Planejamento de tamanho de amostra para modelos de classificação. Anal Chim Acta, 2013, 760, 25-33.
DOI: 10.1016 / j.aca.2012.11.007
manuscrito aceito no arXiv: 1211.1323
Outro ponto importante é fazer bom uso da possibilidade de iterar / repetir a validação cruzada (que é uma das razões contra a LOO): isso permite medir a estabilidade das previsões contra perturbações (ou seja, poucos casos diferentes) do treinamento dados.

Literatura:
- Beleites, C. & Salzer, R .: Avaliando e melhorando a estabilidade de modelos quimiométricos em situações de pequeno tamanho de amostra Anal Bioanal Chem, 2008, 390, 1261-1271.
  DOI: 10.1007 / s00216-007-1818-6
- Dixon, SJ; Heinrich, N .; Holmboe, M .; Schaefer, ML; Reed, RR; Trevejo, J. & Brereton, RG: Aplicação de métodos de classificação quando os tamanhos de grupos são desiguais pela incorporação de probabilidades anteriores a três abordagens comuns: Aplicação a simulações e quimiossinatos urinários de camundongos, Chemom Intell Lab Syst, 2009, 99, 111-120.
  DOI: 10.1016 / j.chemolab.2009.07.016
Se você optar por uma única execução em um conjunto de teste de espera (sem iterações / repetições),
- lembre-se de que a maioria dos erros que você pode com a validação cruzada (o que levará a um viés otimista) também pode ocorrer com um conjunto de testes de espera.
- verifique a largura do intervalo de confiança resultante para a medição do desempenho e verifique se isso permite uma interpretação significativa dos resultados (consulte o documento de planejamento do tamanho da amostra).

— cbeleites descontentes com o SX
fonte

+1 apenas para aconselhamento sobre otimização de parâmetros e complexidade do modelo. mas todo esse conselho é fantástico.

— charles

1

Como o tamanho da amostra é pequeno, uma boa prática seria deixar de fora a seção de validação cruzada e usar uma proporção de 60 - 40 ou 70 - 30.

Como você pode ver na seção 2.8 da Introdução à clementina e mineração de dados e também na Biblioteca MSDN - Mineração de dados - Treinamento e teste Define uma proporção de 70 a 30 é comum. De acordo com as palestras de Andrew Ng sobre Machine Learning, recomenda-se uma proporção de 60 a 20 a 20.

Espero ter sido útil. Cumprimentos.

— mrdatamx
fonte