Você ficaria surpreso ao descobrir que 80/20 é uma proporção bastante comum, geralmente chamada de princípio de Pareto . Geralmente é uma aposta segura se você usar essa proporção.
No entanto, dependendo da metodologia de treinamento / validação empregada, a proporção pode mudar. Por exemplo: se você usar a validação cruzada de 10 vezes, acabaria com um conjunto de validação de 10% em cada dobra.
Houve alguma pesquisa sobre qual é a proporção adequada entre o conjunto de treinamento e o conjunto de validação :
A fração de padrões reservados para o conjunto de validação deve ser inversamente proporcional à raiz quadrada do número de parâmetros ajustáveis livres.
Em sua conclusão, eles especificam uma fórmula:
O conjunto de validação (v) para a proporção de tamanho do conjunto de treinamento (t), v / t, escala como ln (N / h-max), em que N é o número de famílias de reconhecedores e h-max é a maior complexidade dessas famílias.
O que eles querem dizer com complexidade é:
Cada família de reconhecedores é caracterizada por sua complexidade, que pode ou não estar relacionada à dimensão VC , ao comprimento da descrição, ao número de parâmetros ajustáveis ou a outras medidas de complexidade.
Utilizando a primeira regra de ouro (o conjunto de validação deve ser inversamente proporcional à raiz quadrada do número de parâmetros ajustáveis livres), você pode concluir que, se tiver 32 parâmetros ajustáveis, a raiz quadrada de 32 é ~ 5,65, a fração deve ser 1 / 5,65 ou 0,177 (v / t). Aproximadamente 17,7% devem ser reservados para validação e 82,3% para treinamento.