Perguntas com a marcação «feature-selection»

Métodos e princípios de seleção de um subconjunto de atributos para uso em modelagem adicional

11
O que é redução de dimensionalidade? Qual é a diferença entre seleção e extração de recursos?
Na wikipedia, redução de dimensionalidade ou redução de dimensão é o processo de redução do número de variáveis ​​aleatórias em consideração e pode ser dividido em seleção e extração de recursos. Qual é a diferença entre a seleção e extração de recursos? Qual é um exemplo de redução de dimensionalidade …



1


4
O XGBoost lida com multicolinearidade sozinho?
Atualmente, estou usando o XGBoost em um conjunto de dados com 21 recursos (selecionados da lista de cerca de 150 recursos), depois os codifiquei com um hot-code para obter ~ 98 recursos. Alguns desses 98 recursos são um pouco redundantes, por exemplo: uma variável (recurso) também aparece como BUMAAA eCBUMABA\frac{B}{A} …


2
Categorização de texto: combinando diferentes tipos de recursos
O problema que estou enfrentando é categorizar textos curtos em várias classes. Minha abordagem atual é usar frequências de termo ponderadas tf-idf e aprender um classificador linear simples (regressão logística). Isso funciona razoavelmente bem (cerca de 90% da macro F-1 no conjunto de testes, quase 100% no conjunto de treinamento). …

4
Alguma “regra de ouro” no número de recursos versus número de instâncias? (pequenos conjuntos de dados)
Pergunto-me, se há alguma heurística no número de características versus número de observações. Obviamente, se um número de recursos for igual ao número de observações, o modelo será super ajustado. Usando métodos esparsos (LASSO, rede elástica), podemos remover vários recursos para reduzir o modelo. Minha pergunta é (teoricamente): antes de …


5
aumentar o mapa de calor marítimo
Crio um corr()df a partir de um df original. O corr()df saiu 70 X 70 e é impossível de visualizar o mapa de calor ... sns.heatmap(df). Se eu tentar exibir corr = df.corr(), a tabela não se encaixa na tela e posso ver todas as correlações. É uma maneira de …
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 


4
Como especificar atributos importantes?
Suponha um conjunto de dados vagamente estruturados (por exemplo, tabelas da Web / dados abertos vinculados), compostos por várias fontes de dados. Não existe um esquema comum seguido pelos dados e cada fonte pode usar atributos de sinônimo para descrever os valores (por exemplo, "nacionalidade" vs "bornIn"). Meu objetivo é …

4
Quais são as implicações para o treinamento de um Tree Ensemble com conjuntos de dados altamente tendenciosos?
Eu tenho um conjunto de dados binários altamente tendencioso - tenho 1000x mais exemplos da classe negativa do que a classe positiva. Gostaria de treinar um conjunto de árvores (como árvores aleatórias extras ou uma floresta aleatória) nesses dados, mas é difícil criar conjuntos de dados de treinamento que contenham …


Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.