Recentemente, tenho lido muito neste site (@Aniko, @Dikran Marsupial, @Erik) e em outros lugares sobre o problema de sobreajuste que ocorre com a validação cruzada - (Smialowski et al. 2010 Bioinformatics, Hastie, Elements of statistics learning). A sugestão é que qualquer seleção de recurso supervisionado (usando correlação com rótulos de classe) realizada fora da estimativa de desempenho do modelo usando validação cruzada (ou outro método de estimativa de modelo, como inicialização) pode resultar em sobreajuste.
Isso me parece pouco intuitivo - certamente, se você selecionar um conjunto de recursos e avaliar seu modelo usando apenas os recursos selecionados usando validação cruzada, estará obtendo uma estimativa imparcial do desempenho generalizado do modelo nesses recursos (isso pressupõe que a amostra em estudo seja representativa da população)?
Com este procedimento, não é possível reivindicar um conjunto de recursos ideal, mas é possível relatar o desempenho do conjunto de recursos selecionado em dados invisíveis como válido?
Aceito que a seleção de recursos com base em todo o conjunto de dados possa resultar em algum vazamento de dados entre os conjuntos de teste e trem. Mas se o conjunto de recursos for estático após a seleção inicial e nenhuma outra sintonia estiver sendo feita, certamente é válido relatar as métricas de desempenho validadas cruzadamente?
No meu caso, tenho 56 recursos e 259 casos e, portanto, #cases> #features. Os recursos são derivados dos dados do sensor.
Desculpas se minha pergunta parece derivada, mas esse parece ser um ponto importante a ser esclarecido.
Editar: ao implementar a seleção de recursos dentro da validação cruzada no conjunto de dados detalhado acima (graças às respostas abaixo), posso confirmar que a seleção de recursos antes da validação cruzada neste conjunto de dados introduziu uma significanteviés. Esse viés / sobreajuste foi maior ao fazer isso para uma formulação de 3 classes, em comparação com uma formulação de 2 classes. Eu acho que o fato de eu ter usado a regressão gradual para a seleção de recursos aumentou esse ajuste excessivo; para fins de comparação, em um conjunto de dados diferente, porém relacionado, comparei uma rotina seqüencial de seleção de recursos avançados executada antes da validação cruzada com os resultados que eu havia obtido anteriormente com a seleção de recursos no CV. Os resultados entre os dois métodos não diferiram dramaticamente. Isso pode significar que a regressão passo a passo é mais propensa a sobreajuste do que o FS sequencial ou pode ser uma peculiaridade desse conjunto de dados.