Em princípio:
Faça suas previsões usando um único modelo treinado em todo o conjunto de dados (para que haja apenas um conjunto de recursos). A validação cruzada é usada apenas para estimar o desempenho preditivo do modelo único treinado em todo o conjunto de dados. É VITAL ao usar a validação cruzada que, em cada dobra, você repete todo o procedimento usado para ajustar-se ao modelo principal; caso contrário, pode acabar com um viés otimista substancial no desempenho.
Para ver por que isso acontece, considere um problema de classificação binária com 1000 recursos binários, mas apenas 100 casos, onde os casos e os recursos são puramente aleatórios, para que não haja relação estatística entre os recursos e os casos. Se treinarmos um modelo primário no conjunto de dados completo, sempre podemos obter um erro zero no conjunto de treinamento, pois há mais recursos do que casos. Podemos até encontrar um subconjunto de recursos "informativos" (que são correlacionados por acaso). Se, em seguida, executarmos a validação cruzada usando apenas esses recursos, obteremos uma estimativa de desempenho melhor do que a adivinhação aleatória. O motivo é que, em cada dobra do procedimento de validação cruzada, há algumas informações sobre os casos retidos usados para teste, pois os recursos foram escolhidos porque eram bons para prever, todos eles, incluindo aqueles mantidos. Obviamente, a verdadeira taxa de erro será 0,5.
Se adotarmos o procedimento adequado e executar a seleção de recursos em cada dobra, não haverá mais informações sobre os casos retidos na escolha dos recursos usados nessa dobra. Se você usar o procedimento adequado, nesse caso, obterá uma taxa de erro de cerca de 0,5 (embora isso varie um pouco para diferentes realizações do conjunto de dados).
Bons papéis para ler são:
Christophe Ambroise, Geoffrey J. McLachlan, "Viés de seleção na extração de genes com base em dados de expressão de genes de microarray", PNAS http://www.pnas.org/content/99/10/6562.abstract
que é altamente relevante para o PO e
Gavin C. Cawley, Nicola LC Talbot, "Sobre adaptação na seleção de modelos e viés de seleção subsequente na avaliação de desempenho", JMLR 11 (Jul): 2079-2107, 2010 http://jmlr.csail.mit.edu/papers /v11/cawley10a.html
o que demonstra que a mesma coisa pode ocorrer facilmente na seleção de modelos (por exemplo, ajustando os hiperparâmetros de um SVM, que também precisam ser repetidos em cada iteração do procedimento CV).
Na prática:
Eu recomendaria usar o Bagging e o erro fora da bolsa para estimar o desempenho. Você obterá um modelo de comitê usando muitos recursos, mas isso é realmente uma coisa boa. Se você usar apenas um único modelo, será provável que você ajuste demais o critério de seleção de recurso e termine com um modelo que fornece previsões mais ruins do que um modelo que usa um número maior de recursos.
O livro de Alan Millers sobre seleção de subconjuntos em regressão (monografias de Chapman e Hall sobre estatística e probabilidade aplicada, volume 95) fornece um bom conselho (página 221) de que se o desempenho preditivo é a coisa mais importante, não faça nenhuma seleção de recurso , basta usar a regressão de cumeeira. E isso está em um livro sobre seleção de subconjuntos !!! ; o)