Como escolher os tamanhos de conjunto de treinamento, validação cruzada e teste para pequenos dados de tamanho de amostra?


10

Suponha que eu tenha um tamanho pequeno de amostra, por exemplo, N = 100 e duas classes. Como devo escolher os tamanhos de treinamento, validação cruzada e conjunto de testes para aprendizado de máquina?

Eu escolheria intuitivamente

  • Tamanho do conjunto de treinamento como 50
  • Conjunto de validação cruzada tamanho 25 e
  • Teste o tamanho como 25.

Mas provavelmente isso faz mais ou menos sentido. Como devo realmente decidir esses valores? Posso tentar opções diferentes (embora eu ache que não é tão preferível ... maior possibilidade de mais aprendizado)?

E se eu tivesse mais de duas aulas?


2
100 é muito pequeno para mim. Eu optaria por uma estratégia de exclusão única para validação cruzada e avaliação de teste.
Memming

Não vi nenhuma literatura sobre isso (tamanhos mínimos de amostra para validação). Não sei por que. Parece uma questão importante.
charles

Respostas:


15

+1 apenas para aconselhamento sobre otimização de parâmetros e complexidade do modelo. mas todo esse conselho é fantástico.
charles

1

Como o tamanho da amostra é pequeno, uma boa prática seria deixar de fora a seção de validação cruzada e usar uma proporção de 60 - 40 ou 70 - 30.

Como você pode ver na seção 2.8 da Introdução à clementina e mineração de dados e também na Biblioteca MSDN - Mineração de dados - Treinamento e teste Define uma proporção de 70 a 30 é comum. De acordo com as palestras de Andrew Ng sobre Machine Learning, recomenda-se uma proporção de 60 a 20 a 20.

Espero ter sido útil. Cumprimentos.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.