Perguntas com a marcação «random-forest»

A floresta aleatória é um classificador de aprendizado de máquina baseado na escolha de subconjuntos aleatórios de variáveis ​​para cada árvore e no uso da saída em árvore mais frequente como classificação geral.


7
ValueError: a entrada contém NaN, infinito ou um valor muito grande para dtype ('float32')
Eu obtive o ValueError ao prever dados de teste usando um modelo RandomForest. Meu código: clf = RandomForestClassifier(n_estimators=10, max_depth=6, n_jobs=1, verbose=2) clf.fit(X_fit, y_fit) df_test.fillna(df_test.mean()) X_test = df_test.values y_pred = clf.predict(X_test) O erro: ValueError: Input contains NaN, infinity or a value too large for dtype('float32'). Como encontro os valores incorretos no …

1


3
Entendendo o forecast_proba do MultiOutputClassifier
Estou seguindo este exemplo no site scikit-learn para executar uma classificação de saída múltipla com um modelo de floresta aleatória. from sklearn.datasets import make_classification from sklearn.multioutput import MultiOutputClassifier from sklearn.ensemble import RandomForestClassifier from sklearn.utils import shuffle import numpy as np X, y1 = make_classification(n_samples=5, n_features=5, n_informative=2, n_classes=2, random_state=1) y2 = …


4
O Random Forest superajustou?
Eu tenho lido sobre florestas aleatórias, mas não consigo realmente encontrar uma resposta definitiva sobre o problema do excesso de ajuste. De acordo com o artigo original de Breiman, eles não devem se superestimar ao aumentar o número de árvores na floresta, mas parece que não há consenso sobre isso. …




5
aumentar o mapa de calor marítimo
Crio um corr()df a partir de um df original. O corr()df saiu 70 X 70 e é impossível de visualizar o mapa de calor ... sns.heatmap(df). Se eu tentar exibir corr = df.corr(), a tabela não se encaixa na tela e posso ver todas as correlações. É uma maneira de …
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

1
Método de pontuação RandomForestClassifier OOB
A implementação da floresta aleatória no scikit-learn está usando a precisão média como método de pontuação para estimar o erro de generalização com amostras prontas para uso? Isso não é mencionado na documentação, mas o método score () relata a precisão média. Eu tenho um conjunto de dados altamente desequilibrado …


1
Quantos recursos para amostra usando florestas aleatórias
A página da Wikipedia que cita "Os elementos do aprendizado estatístico" diz: Normalmente, para um problema de classificação com os recursos , os recursos são usados ​​em cada divisão.ppp⌊ p-√⌋⌊p⌋\lfloor \sqrt{p}\rfloor Entendo que esse é um palpite bastante bom e provavelmente foi confirmado por evidências empíricas, mas existem outras razões …


Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.