Tutoriais para engenharia de recursos

Como é sabido a todos, a engenharia de recursos é extremamente importante para o aprendizado de máquina, no entanto, encontrei poucos materiais associados a essa área. Participei de várias competições no Kaggle e acredito que bons recursos podem até ser mais importantes do que um bom classificador em alguns casos. Alguém conhece algum tutorial sobre engenharia de recursos ou é uma experiência pura?

machine-learning references feature-construction

— FindBoat
fonte

Você quer dizer pré-processamento de recursos (normalização e outras transformações) ou seleção de recursos?

— MattBagg

@ mb3041023 Não, a etapa anterior a ambas, na qual você converte alguns dados brutos, como textos, imagens ou séries, em alguns atributos utilizáveis.

Na minha experiência, uma grande parte do problema do aprendizado de máquina está literalmente configurando o problema correto a ser resolvido / otimizado (ou seja, recursos, representação de recursos, seleção etc.). Adoraria ver um livro exclusivamente dedicado à seleção empírica de recursos e ao pré-processamento, com muitas ilustrações da vida real (como o kaggle). Se alguém souber de um, pls. postar. Existem vários livros dedicados a coisas como limpeza de dados / imputação de dados, mas um texto prático dedicado sobre a seleção de recursos é extremamente necessário.

— pat

Dê uma olhada em: "Extração de recursos: fundamentos e aplicações", 2006

— jasonb 4/13/13

@jasonb, que tal autor, tamanho, preço e link, algo como isto: Guyon ed., Extração de recursos: Fundamentos e aplicações 2006, 778p, $ 306

— denis

Respostas:

Eu diria experiência - as idéias básicas são:

ajustar como os classificadores funcionam; dar um problema de geometria a uma árvore, dimensão superdimensionada a um kNN e dados de intervalo a um SVM não são boas idéias
remova o máximo de não linearidades possível; esperar que algum classificador faça a análise de Fourier por dentro é bastante ingênuo (mesmo que desperdice muita complexidade)
torne os recursos genéricos para todos os objetos, para que algumas amostras na cadeia não os derrubem
verificar trabalhos anteriores - geralmente a transformação usada para visualização ou teste de tipos semelhantes de dados já está ajustada para descobrir aspectos interessantes
evitar transformações instáveis e otimizadas, como o PCA, que podem levar ao excesso de ajustes
experimente muito

Como você define "dados do intervalo"? Eu pesquisei no Google e encontrei muitas definições diferentes.

— poder

você pode elaborar sobre o ponto PCA?

— 22412 Daniel Velkov

x

$x$

| x - nearest prime | < 0.3

$|x-\text{nearest prime}|<0.3$

@DanielVelkov Quando você inicializa o PCA com dados bastante barulhentos, os componentes geralmente são instáveis; isso promove a idéia de disponibilizar um PCA global em todo o conjunto, o que vaza informações e é uma maneira direta de prejudicar a avaliação.

@mbq e se o PCA for executado apenas no conjunto de treinamento, do jeito que deveria ser?

— Daniel Velkov

Existe um livro de O'Reilly chamado " Feature Engineering for Machine Learning " de Zheng et al.

Eu li o livro e ele cobre diferentes tipos de dados (por exemplo, categóricos, texto ...) e descreve diferentes aspectos da engenharia de recursos que o acompanham. Isso inclui coisas como normalização de dados, seleção de recursos e tf-idf no texto.

— NumSim
fonte