Perguntas com a marcação «feature-construction»

A engenharia de recursos é o processo de usar o conhecimento de domínio dos dados para criar recursos para modelos de aprendizado de máquina. Essa tag destina-se a perguntas teóricas e práticas relacionadas à engenharia de recursos, excluindo perguntas que solicitam código, que seriam fora de tópico no CrossValidated.

2
Noções básicas sobre hash de recursos
A Wikipedia fornece o seguinte exemplo ao descrever o hash de recursos ; mas o mapeamento não parece consistente com o dicionário definido Por exemplo, todeve ser convertido para de 3acordo com o dicionário, mas é codificado como 1alternativa. Existe um erro na descrição? Como funciona o hash de recursos? …


1
Por que os recursos aleatórios de Fourier não são negativos?
Os recursos aleatórios de Fourier fornecem aproximações às funções do kernel. Eles são usados ​​para vários métodos de kernel, como SVMs e processos gaussianos. Hoje, tentei usar a implementação do TensorFlow e obtive valores negativos para metade dos meus recursos. Pelo que entendi, isso não deveria acontecer. Então, voltei ao …



3
a engenharia de recursos é importante ao fazer o Random Forest ou o Gradient Boosting?
Para modelos lineares (como regressão linear, regressão logística, etc.), a engenharia de recursos é uma etapa importante para melhorar o desempenho dos modelos. Minha pergunta é: importa se realizamos alguma engenharia de recursos ao usar floresta aleatória ou aumento de gradiente? Concedido que esses modelos não são modelos de aprendizado …



1
Codificação de recursos categóricos de alta cardinalidade (várias categorias) quando os recursos diferem bastante na cardinalidade
Estive pesquisando perguntas sobre a codificação de recursos categóricos, mas não encontrei nenhuma que discutisse meu problema. Desculpas se eu perdi. Digamos que temos um conjunto de dados com variáveis binárias e nominais de importância aproximadamente igual cada. A maioria dos classificadores não pode lidar com tipos categóricos diretamente, portanto …

2
Por que um modelo estatístico superajustaria se recebesse um grande conjunto de dados?
Meu projeto atual pode exigir que eu construa um modelo para prever o comportamento de um determinado grupo de pessoas. o conjunto de dados de treinamento contém apenas 6 variáveis ​​(id é apenas para fins de identificação): id, age, income, gender, job category, monthly spend em que monthly spendé a …
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

3
Construção de recursos em R
Eu estou querendo saber se existem algoritmos (talvez algoritmos genéticos) em R para construção de recursos (derivados de preditores candidatos de preditores existentes)? Estou pensando em uma rotina para testar potências, interações, proporções e combinações lineares de ordem superior e funções não lineares de variáveis ​​existentes (sin, cos, atan etc.). …

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.