Minha pergunta: devo fazer CV mesmo para um conjunto de dados relativamente grande?
Eu tenho um conjunto de dados relativamente grande e aplicarei um algoritmo de aprendizado de máquina ao conjunto de dados.
Como meu PC não é rápido, o CV (e a busca na grade) às vezes leva muito tempo. Em particular, um SVM nunca termina por causa de muitos parâmetros de ajuste. Portanto, se eu fizer um currículo, preciso escolher dados relativamente pequenos.
Por outro lado, o conjunto de validação também deve ser grande, por isso acho que é uma boa ideia usar um conjunto de validação que tenha o mesmo tamanho (ou maior) do conjunto de treinamento. (Ou seja, em vez de CV, eu uso um conjunto de validação grande para ajuste de parâmetros.)
Então, agora tenho pelo menos duas opções.
- faça CV em um pequeno conjunto de dados.
- use um conjunto de treinamento relativamente grande e um conjunto de validação sem CV.
- outra ideia
Qual é a melhor ideia? Opiniões teóricas ou práticas são bem-vindas.