Respostas:
Não há uma fonte definida sobre como executar a engenharia de recursos. Geralmente depende do problema que você está tentando resolver. Alguns dizem que é mais uma arte do que ciência.
Mas eu analisaria algumas das soluções kaggle kernels / vencedoras de alta pontuação, se disponíveis. Basta ir até o kaggle e navegar pelas competições. Há muito material muito útil lá.
Além disso, o diário de pesquisa em aprendizado de máquina tem vários artigos sobre engenharia de recursos. Basta pesquisar no site http://www.jmlr.org/ .
Os links a seguir são úteis e muito longos para parafrasear:
Imputação de dados ausentes:
Análise completa de casos
Imputação da média / mediana / modo
Imputação de amostra aleatória
Substituição por valor arbitrário
Indicador de valor ausente
Imputação multivariada
Codificação categórica:
Uma codificação quente
Codificação de contagem e frequência
Codificação de destino / Codificação média
Codificação ordinal
Peso da evidência
Codificação rara de etiquetas
BaseN, hash de recursos e outros
Transformação variável:
Logaritmo
Recíproca
Raiz quadrada
Exponencial
Yeo-Johnson
Box-Cox
Discretização:
Discretização de igual frequência
Discretização de igual comprimento
Discretização com árvores
Discretização com ChiMerge
Remoção de Outlier:
Remoção de outliers
Tratar valores extremos como NaN
Capping, Windsorisation
Escala de recursos:
Estandardização
MinMax Scaling
Escala Média
Escala máxima absoluta
Norma da unidade - Escalonamento
Engenharia de Data e Hora:
Criação de Recursos:
Agregando dados de transação:
Extraindo recursos do texto:
Saco de palavras
tfidf
n-gramas
word2vec
extração de tópicos
E, finalmente, extrair recursos de imagens.
Um bom artigo que descreve a maioria das técnicas acima: Engenharia de recursos, uma visão abrangente
Uma boa lista de recursos para aprender mais sobre engenharia de recursos: Melhores recursos para aprender sobre engenharia de recursos
Ferramentas Python para engenharia de recursos podem ser encontradas neste tópico
AVISO LEGAL: Eu escrevi os 2 artigos e também sou o criador de 1 dos cursos recomendados para aprender sobre engenharia de recursos.