Claro que você também precisa decidir sobre as razões de divisão para a reamostragem (dupla) ...
No entanto, a reamostragem geralmente funciona para uma ampla variedade de taxas de divisão, se você tiver em mente
- para não deixar de fora se isso reduziria o número de possíveis execuções distintas
- deixe casos de treinamento suficientes no conjunto de treinamento mais interno para que o algoritmo de rastreamento tenha uma chance decente de produzir um modelo útil.
- quanto mais casos independentes você tiver, menos importantes serão essas considerações.
E se você estiver trabalhando em dados de maior escala (mas não em dados grandes) de 10000 <N <1000000?
O que você pode fazer se não tiver certeza de que a reamostragem é necessária é: reamostrar algumas vezes. O suficiente para que você possa medir se a reamostragem foi necessária.
- verifique a estabilidade de suas previsões
- verifique a estabilidade dos parâmetros do seu modelo
Com esses resultados, você pode decidir se deve adicionar mais iterações de reamostragem ou se as coisas estão bem como estão.