Perguntas com a marcação «binning»

Binning significa agrupar uma variável contínua em categorias discretas. É particularmente usado em referência a histogramas, mas também pode ser usado de forma mais geral no sentido de engrossamento.



3
Benefícios do uso de gráficos QQ sobre histogramas
Nesse comentário , Nick Cox escreveu: A divisão em classes é um método antigo. Embora os histogramas possam ser úteis, o moderno software estatístico facilita e aconselha a adequação das distribuições aos dados brutos. Binning simplesmente joga fora os detalhes que são cruciais para determinar quais distribuições são plausíveis. O …

2
Quando devemos discretizar / classificar variáveis ​​/ recursos independentes contínuos e quando não devemos?
Quando devemos discretizar / bin variáveis ​​/ recursos independentes e quando não devemos? Minhas tentativas de responder à pergunta: Em geral, não devemos fazer bin, porque o binning perderá informações. Na verdade, o binning está aumentando o grau de liberdade do modelo; portanto, é possível causar um ajuste excessivo após …








1
Variável categórica de regressão linear R valor "oculto"
Este é apenas um exemplo que encontrei várias vezes, portanto não tenho dados de amostra. Executando um modelo de regressão linear em R: a.lm = lm(Y ~ x1 + x2) x1é uma variável contínua. x2é categórico e possui três valores, por exemplo, "Baixo", "Médio" e "Alto". No entanto, a saída …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
Fórmula de Doane para binograma de histograma
Estou implementando vários algoritmos para estimar o melhor número de caixas a serem usadas para histogramas. A maioria dos que estou implementando está descrita na página "Histograma" da Wikipedia, na seção " Número de posições e largura " *. Estou preso a um problema com a fórmula de Doane: 1 …


2
Qual é a justificativa para a discretização não supervisionada de variáveis ​​contínuas?
Várias fontes sugerem que existem muitas consequências negativas da discretização (categorização) de variáveis ​​contínuas antes da análise estatística (amostra de referências [1] - [4] abaixo). Por outro lado, [5] sugere que algumas técnicas de aprendizado de máquina são conhecidas por produzir melhores resultados quando variáveis ​​contínuas são discretizadas (também observando …

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.