Para modelos lineares (como regressão linear, regressão logística, etc.), a engenharia de recursos é uma etapa importante para melhorar o desempenho dos modelos. Minha pergunta é: importa se realizamos alguma engenharia de recursos ao usar floresta aleatória ou aumento de gradiente?
Concedido que esses modelos não são modelos de aprendizado profundo. mas parece que alguns dos métodos de engenharia de recursos não melhoram realmente o modelo. Por exemplo: Estou com um problema de classificação binária, que contém cerca de 200 recursos , e 20 deles são recursos categóricos. Eu fiz o seguinte:
benchmark: executou o classificador aleatório da floresta diretamente nos dados originais. Eu tenho AUC em torno de 0,93, precisão, recall e F-score são em torno de 0,95 (eu disse, porque a validação statifiedKfold é aplicada e existem variações muito pequenas nos resultados)
Reduzi a dimensão do recurso fazendo o teste do qui quadrado e o teste ANOVA f1, para executar o modelo. os resultados são quase idênticos: AUC em torno de 0,93, precisão, recall e F-score em torno de 0,95
depois, digitei todas as características categóricas com uma tecla de atalho e, em seguida, executei novamente o modelo, os resultados ainda quase idênticos: AUC em torno de 0,93, precisão, recall e F-score em torno de 0,95
Em seguida, o SVD truncado é aplicado para reduzir ainda mais os recursos e treinar novamente o modelo, ainda os resultados permanecem inalterados ...
por fim, adicionei termo polinomial, termo cruzado dos demais recursos. os resultados ainda não foram alterados ...
Alguma sugestão, por favor? obrigado.