A seleção de recursos pode ser considerada um estágio a ser evitado. Você precisa gastar tempo de computação para remover recursos e realmente perder dados, e os métodos necessários para a seleção de recursos não são ideais, pois o problema é NP-Complete . Usá-lo não soa como uma oferta que você não pode recusar.
Então, quais são os benefícios de usá-lo?
- Muitos recursos e baixa taxa de amostras / recursos introduzirão ruído no seu conjunto de dados. Nesse caso, é provável que o seu algoritmo de classificação se ajuste demais e lhe dê uma falsa sensação de bom desempenho.
- Reduzir o número de recursos reduzirá o tempo de execução nos estágios posteriores. Isso, por sua vez, permitirá que você use algoritmos de maior complexidade, pesquise mais hiper parâmetros ou faça mais avaliações.
- Um conjunto menor de recursos é mais compreensível para os seres humanos. Isso permitirá que você se concentre nas principais fontes de previsibilidade e faça uma engenharia de recursos mais exata. Se você precisar explicar seu modelo para um cliente, é melhor apresentar um modelo com 5 recursos do que um modelo com 200 recursos.
Agora, para o seu caso específico: recomendo que você comece a calcular as correlações entre os recursos e o conceito. A correlação computacional entre todos os recursos também é informativa. Observe que existem muitos tipos de correlações úteis (por exemplo, Pearson , informações mútuas ) e muitos atributos que podem afetá-las (por exemplo, escassez, desequilíbrio de conceito). Examiná-los em vez de optar cegamente por um algoritmo de seleção de recursos pode economizar muito tempo no futuro.
Não acho que você tenha muitos problemas de tempo de execução com seu conjunto de dados. No entanto, a proporção de amostras / recursos não é muito alta; portanto, você pode se beneficiar da seleção de recursos.
Escolha um classificador de baixa complexidade (por exemplo, regressão linear, uma pequena árvore de decisão) e use-o como referência. Experimente no conjunto completo de dados e em alguns conjuntos de dados com um subconjunto dos recursos. Essa referência guiará você no uso da seleção de recursos. Você precisará dessas orientações, já que existem muitas opções (por exemplo, o número de recursos a serem selecionados, o algoritmo de seleção de recursos) e, uma vez que o objetivo geralmente é a predicação e não a seleção de recursos, para que o feedback esteja a pelo menos um passo.