Conjuntos de validação maiores fornecem estimativas mais precisas do desempenho fora da amostra. Mas, como você notou, em algum momento essa estimativa pode ser tão precisa quanto você precisa, e você pode fazer algumas previsões grosseiras quanto ao tamanho da amostra de validação necessária para atingir esse ponto.
Para precisão simples / incorreta da classificação, você pode calcular o erro padrão da estimativa como (desvio padrão de uma variável de Bernouilli), em que é a probabilidade de uma classificação correta e é o tamanho do conjunto de validação. É claro que você não conhece , mas pode ter uma ideia do seu alcance. Por exemplo, digamos que você espere uma precisão entre 60-80% e que suas estimativas tenham um erro padrão menor que 0,1%:
Quão grande deve ser (o tamanho de o conjunto de validação) seja? Para , obtemos:
Parap(1−p)/n−−−−−−−−−√pnp
p(1−p)/n−−−−−−−−−√<0.001
np=0.6n>0.6−0.620.0012=240,000
p=0.8obtemos:
Portanto, isso nos diz que você pode usar menos de 5% de seus 5 milhões de amostras de dados para validação. Essa porcentagem diminui se você espera um desempenho mais alto ou, especialmente, se estiver satisfeito com um erro padrão mais baixo da sua estimativa de desempenho fora da amostra (por exemplo, com e para um valor <1%, você precisa apenas de 2100 amostras de validação , ou menos de um vigésimo de um por cento dos seus dados).
n>0.8−0.820.0012=160,000
p=0.7
Esses cálculos também mostram o argumento de Tim em sua resposta, de que a precisão de suas estimativas depende do tamanho absoluto do seu conjunto de validação (ou seja, em ), e não do tamanho relativo ao conjunto de treinamento.n
(Além disso, devo acrescentar que estou assumindo uma amostragem representativa aqui. Se seus dados são muito heterogêneos, talvez seja necessário usar conjuntos de validação maiores apenas para garantir que os dados de validação incluam as mesmas condições, etc., como os dados de seu trem e teste. )