Perguntas com a marcação «cart»

'Árvores de classificação e regressão'. O CART é uma técnica popular de aprendizado de máquina e forma a base de técnicas como florestas aleatórias e implementações comuns de máquinas de aumento de gradiente.

1
Árvores de decisão dimensionamento variável (recurso) e normalização variável (ajuste) necessários em quais implementações?
Em muitos algoritmos de aprendizado de máquina, dimensionamento recurso (aka variável de escala, normalização) é um comum prepocessing passo Wikipedia - função Dimensionamento - esta questão estava perto Pergunta # 41704 - Como e por que a normalização e operação de referência de escala? Eu tenho duas perguntas especificamente em …

1
Por que Anova () e drop1 () forneceram respostas diferentes para os GLMMs?
Eu tenho um GLMM do formulário: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Quando uso drop1(model, test="Chi"), obtenho resultados diferentes dos que utilizo Anova(model, type="III")na embalagem do carro ou summary(model). Estes dois últimos dão as mesmas respostas. Usando um monte de dados fabricados, …
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
Tamanho da árvore no aumento da árvore gradiente
O aumento da árvore de gradiente, conforme proposto por Friedman, usa as árvores de decisão com Jnós terminais (= folhas) como aprendizes base. Existem várias maneiras de cultivar uma árvore com exatamente Jnós, por exemplo, é possível cultivá-la em profundidade primeiro ou em primeiro lugar, ... Existe uma maneira estabelecida …
10 r  cart  boosting 

1
Variável categórica de regressão linear R valor "oculto"
Este é apenas um exemplo que encontrei várias vezes, portanto não tenho dados de amostra. Executando um modelo de regressão linear em R: a.lm = lm(Y ~ x1 + x2) x1é uma variável contínua. x2é categórico e possui três valores, por exemplo, "Baixo", "Médio" e "Alto". No entanto, a saída …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
Investigando diferenças entre populações
Digamos que temos uma amostra de duas populações: Ae B. Vamos supor que essas populações sejam feitas de indivíduos e optamos por descrevê-los em termos de recursos. Alguns desses recursos são categóricos (por exemplo, eles dirigem para o trabalho?) E outros são numéricos (por exemplo, sua altura). Vamos chamar esses …

2
Os avaliadores de árvores SEMPRE são tendenciosos?
Estou fazendo uma lição de casa sobre as Árvores de Decisão, e uma das perguntas que tenho que responder é "Por que os estimadores são construídos a partir de árvores, e como a ensacagem ajuda a reduzir sua variação?". Agora, eu sei que os modelos com excesso de ajuste tendem …
9 cart  bias 



1
Como escolher o número de divisões em rpart ()?
Eu tenho usado rpart.controlpara minsplit=2, e obteve os seguintes resultados de rpart()função. Para evitar o ajuste excessivo dos dados, preciso usar as divisões 3 ou 7? Não devo usar divisões 7? Por favor deixe-me saber. Variáveis ​​realmente usadas na construção de árvores: [1] ct_a ct_b usr_a Root node error: 23205/60 …
9 r  cart  rpart 

4
A regressão baseada em árvore pode ter um desempenho pior que a regressão linear simples?
Oi, eu estou estudando técnicas de regressão. Meus dados têm 15 recursos e 60 milhões de exemplos (tarefa de regressão). Quando tentei muitas técnicas conhecidas de regressão (árvore com aumento de gradiente, regressão em árvore de decisão, AdaBoostRegressor etc.), a regressão linear teve um ótimo desempenho. Pontuação quase melhor entre …



2
Uma explicação simples e clara da impureza de Gini?
Em um contexto de divisão da árvore de decisão, não é óbvio ver por que a impureza de Gini i ( t ) = 1 -∑j = 1kp2( j | t )i(t)=1−∑j=1kp2(j|t) i(t)=1-\sum\limits_{j=1}^k p^2(j|t) é uma medida da impureza do nó t . Existe uma explicação fácil para isso?
9 cart  intuition  gini 


3
Regressão (não) linear na árvore de decisão foliar
É comum ter uma técnica de regressão diferente nas folhas de uma árvore de regressão (por exemplo, regressão linear)? Eu tenho procurado por ele na última hora, mas tudo o que encontro são implementações que têm um valor constante nas folhas das árvores. Existe uma razão pela qual isso é …

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.