Ciência de dados xgboost

5

Estou tentando entender as principais diferenças entre GBM e XGBOOST. Tentei pesquisar no google, mas não consegui encontrar boas respostas que explicassem as diferenças entre os dois algoritmos e por que o xgboost quase sempre tem um desempenho melhor que o GBM. O que torna o XGBOOST tão rápido?

40 machine-learning algorithms xgboost ensemble-modeling gbm

2

Como interpretar a saída de importância XGBoost?

Eu executei um modelo xgboost. Eu não sei exatamente como interpretar a saída de xgb.importance. Qual é o significado de ganho, cobertura e frequência e como os interpretamos? Além disso, o que significa% Split, RealCover e RealCover? Eu tenho alguns parâmetros extras aqui Existem outros parâmetros que podem me dizer …

37 machine-learning xgboost

1

Por que o xgboost é muito mais rápido que o sklearn GradientBoostingClassifier?

Estou tentando treinar um modelo de aumento de gradiente com mais de 50 mil exemplos com 100 recursos numéricos. XGBClassifierlida com 500 árvores em 43 segundos na minha máquina, enquanto GradientBoostingClassifierlida com apenas 10 árvores (!) em 1 minuto e 2 segundos :( Não me preocupei em tentar cultivar 500 …

29 scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

3

Parâmetros do XGBoost com ajuste otimizado

O XGBoost tem feito um ótimo trabalho quando se trata de lidar com variáveis dependentes categóricas e contínuas. Mas, como seleciono os parâmetros otimizados para um problema no XGBoost? Foi assim que apliquei os parâmetros para um problema recente do Kaggle: param <- list( objective = "reg:linear", booster = "gbtree", …

27 r python xgboost

2

LightGBM vs XGBoost

Estou tentando entender o que é melhor (mais preciso, principalmente em problemas de classificação) Pesquisei artigos comparando o LightGBM e o XGBoost, mas encontrei apenas dois: https://medium.com/implodinggradients/benchmarking-lightgbm-how-fast-is-lightgbm-vs-xgboost-15d224568031 - que trata apenas de velocidade, mas não de precisão. https://github.com/Microsoft/LightGBM/wiki/Experiments - que é dos autores do LightGBM e não surpreende que o …

25 xgboost

3

Por que precisamos do XGBoost e da Random Forest?

Eu não estava claro sobre alguns conceitos: O XGBoost converte alunos fracos em alunos fortes. Qual é a vantagem de fazer isso? Combinando muitos alunos fracos em vez de apenas usar uma única árvore? A Random Forest usa várias amostras da árvore para criar uma árvore. Qual é a vantagem …

25 machine-learning data-mining random-forest decision-trees xgboost

4

O XGBoost lida com multicolinearidade sozinho?

Atualmente, estou usando o XGBoost em um conjunto de dados com 21 recursos (selecionados da lista de cerca de 150 recursos), depois os codifiquei com um hot-code para obter ~ 98 recursos. Alguns desses 98 recursos são um pouco redundantes, por exemplo: uma variável (recurso) também aparece como BUMAAA eCBUMABA\frac{B}{A} …

23 feature-selection correlation xgboost gbm

3

xgboost: dê mais importância a amostras recentes

Existe uma maneira de adicionar mais importância aos pontos mais recentes ao analisar dados com o xgboost?

22 xgboost weighted-data

4

Dados multiclasses desbalanceados com o XGBoost

Eu tenho 3 classes com esta distribuição: Class 0: 0.1169 Class 1: 0.7668 Class 2: 0.1163 E eu estou usando xgboostpara classificação. Eu sei que existe um parâmetro chamado scale_pos_weight. Mas como ele é tratado no caso 'multiclass' e como posso defini-lo corretamente?

19 classification xgboost multiclass-classification unbalanced-classes

4

As saídas XGBoost tendem para os extremos

Atualmente, estou usando o XGBoost para previsão de riscos, parece estar fazendo um bom trabalho no departamento de classificação binária, mas as saídas de probabilidade estão muito longe, ou seja, alterar o valor de um recurso em uma observação em uma quantidade muito pequena pode aumentar a probabilidade salto de …

15 machine-learning classification xgboost probability probability-calibration

2

Como ajustar modelos de classificação aos pares no xgBoost?

Tanto quanto eu sei, para treinar o aprendizado para classificar modelos, você precisa ter três coisas no conjunto de dados: rótulo ou relevância ID do grupo ou da consulta vetor de recurso Por exemplo, o conjunto de dados Microsoft Learning to Rank usa esse formato (rótulo, ID do grupo e …

14 search ranking xgboost gbm

3

Pandas Dataframe para DMatrix

Estou tentando executar o xgboost no scikit learn. E eu só uso o Pandas para carregar dados no dataframe. Como eu devo usar pandas df com xgboost. Estou confuso com a rotina do DMatrix necessária para executar o xgboost algo.

14 scikit-learn pandas xgboost

1

XGBRegressor vs. xgboost.train diferença de velocidade enorme?

Se eu treinar meu modelo usando o seguinte código: import xgboost as xg params = {'max_depth':3, 'min_child_weight':10, 'learning_rate':0.3, 'subsample':0.5, 'colsample_bytree':0.6, 'obj':'reg:linear', 'n_estimators':1000, 'eta':0.3} features = df[feature_columns] target = df[target_columns] dmatrix = xg.DMatrix(features.values, target.values, feature_names=features.columns.values) clf = xg.train(params, dmatrix) termina em cerca de 1 minuto. Se eu treinar meu modelo usando …

13 machine-learning python decision-trees xgboost efficiency

1

Árvores de decisão: passagem de árvore em nível de folha (melhor primeiro) e em nível

Problema 1: Estou confuso com a descrição do LightGBM sobre o modo como a árvore é expandida. Eles afirmam: A maioria dos algoritmos de aprendizado de árvore de decisão cresce em árvore por nível (profundidade), conforme a imagem a seguir: Perguntas 1 : Quais algoritmos "mais" são implementados dessa maneira? …

13 decision-trees xgboost

1

Importância do recurso com recursos categóricos de alta cardinalidade para regressão (variável dependente numérica)

Eu estava tentando usar as importâncias de recursos da Random Forests para executar alguma seleção empírica de recursos para um problema de regressão em que todos os recursos são categóricos e muitos deles têm muitos níveis (da ordem de 100-1000). Dado que a codificação one-hot cria uma variável dummy para …

12 scikit-learn feature-selection random-forest xgboost categorical-data

Perguntas com a marcação «xgboost»