Perguntas com a marcação «many-categories»

Variáveis ​​categóricas com grande número de níveis e métodos estatísticos para trabalhar com tais variáveis ​​(exemplo: laço fundido).

6
Maneira básica de colapsar variáveis ​​categóricas com muitos níveis?
Quais técnicas estão disponíveis para recolher (ou agrupar) muitas categorias para algumas, com o objetivo de usá-las como uma entrada (preditora) em um modelo estatístico? Considere uma variável como estudante universitário (disciplina escolhida por um estudante de graduação). É desordenado e categórico, mas pode potencialmente ter dezenas de níveis distintos. …

6
Melhore a classificação com muitas variáveis ​​categóricas
Estou trabalhando em um conjunto de dados com mais de 200.000 amostras e aproximadamente 50 recursos por amostra: 10 variáveis ​​contínuas e as outras ~ 40 são variáveis ​​categóricas (países, idiomas, campos científicos etc.). Para essas variáveis ​​categóricas, você tem, por exemplo, 150 países diferentes, 50 idiomas, 50 campos científicos, …

6
Problemas com gráficos de pizza
Parece haver uma crescente discussão sobre gráficos de pizza. Os principais argumentos contra isso parecem ser: A área é percebida com menos energia que comprimento. Os gráficos de pizza têm uma relação ponto-a-pixel muito baixa No entanto, acho que eles podem ser de alguma forma úteis ao retratar proporções. Concordo …



4
A precisão da máquina de aumento de gradiente diminui à medida que o número de iterações aumenta
Estou experimentando o algoritmo da máquina de aumento de gradiente através do caretpacote em R. Usando um pequeno conjunto de dados de admissões de faculdade, executei o seguinte código: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

4
Efeito fixo vs efeito aleatório quando todas as possibilidades estão incluídas em um modelo de efeitos mistos
Em um modelo de efeitos mistos, a recomendação é usar um efeito fixo para estimar um parâmetro se todos os níveis possíveis forem incluídos (por exemplo, homens e mulheres). Recomenda-se ainda o uso de um efeito aleatório para contabilizar uma variável se os níveis incluídos forem apenas uma amostra aleatória …



1



3
Pacote R para combinar níveis de fator para datamining?
Querendo saber se alguém já se deparou com um pacote / função em R que combinará níveis de um fator cuja proporção de todos os níveis de um fator seja menor que algum limite? Especificamente, uma das primeiras etapas na preparação de dados que eu conduzo é recolher níveis esparsos …


1
Codificação de recursos categóricos de alta cardinalidade (várias categorias) quando os recursos diferem bastante na cardinalidade
Estive pesquisando perguntas sobre a codificação de recursos categóricos, mas não encontrei nenhuma que discutisse meu problema. Desculpas se eu perdi. Digamos que temos um conjunto de dados com variáveis binárias e nominais de importância aproximadamente igual cada. A maioria dos classificadores não pode lidar com tipos categóricos diretamente, portanto …

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.