A seleção de recursos deve ser realizada apenas nos dados de treinamento (ou todos os dados)? Passei por algumas discussões e artigos como Guyon (2003) e Singhi e Liu (2006) , mas ainda não tenho certeza sobre a resposta certa.
Minha configuração da experiência é a seguinte:
- Conjunto de dados: 50 controles saudáveis e 50 pacientes com doenças (recursos do cca 200 que podem ser relevantes para a previsão da doença).
- A tarefa é diagnosticar doenças com base nos recursos disponíveis.
O que eu faço é
- Pegue um conjunto de dados inteiro e execute a seleção de recursos (FS). Eu mantenho apenas os recursos selecionados para processamento adicional
- Divida para testar e treinar, treine o classificador usando dados de trem e recursos selecionados. Em seguida, aplique o classificador para testar os dados (novamente usando apenas os recursos selecionados). A validação de deixar um fora é usada.
- obter precisão de classificação
- Média: repita 1) -3) N vezes. (100).
Concordo que fazer FS em um conjunto de dados inteiro pode apresentar algum viés, mas minha opinião é que ele é "calculado em média" durante a média (etapa 4). Isso está correto? (A variação da precisão é )
1 Guyon, I. (2003) "Uma Introdução à Seleção de Variáveis e Recursos", The Journal of Machine Learning Research, vol. 3, pp. 1157-1182
2 Singhi, SK e Liu, H. (2006) "Viés de seleção de subconjuntos de recursos para aprendizado de classificação", continuação da ICML '06 Anais da 23ª conferência internacional sobre aprendizado de máquina, pp. 849-856