Gostaria de saber que tipo de validação cruzada de modelo escolher para o problema de classificação: dobra K ou subamostragem aleatória (amostragem de inicialização)?
Meu melhor palpite é usar 2/3 do conjunto de dados (que é ~ 1000 itens) para treinamento e 1/3 para validação.
Nesse caso, a dobra em K fornece apenas três iterações (dobras), o que não é suficiente para ver um erro médio estável.
Por outro lado, não gosto do recurso de subamostragem aleatória: alguns itens nunca serão selecionados para treinamento / validação e outros serão usados mais de uma vez.
Algoritmos de classificação utilizados: floresta aleatória e regressão logística.