Perguntas com a marcação «categorical-data»

Dados categóricos (também denominados nominais) podem assumir um número limitado de valores possíveis chamados categorias. Valores categóricos "rótulo", eles não "medem". Por favor, use a tag [ordinal-data] para tipos de dados discretos, mas ordenados.

6
A análise de componentes principais pode ser aplicada a conjuntos de dados que contêm uma mistura de variáveis ​​contínuas e categóricas?
Eu tenho um conjunto de dados que possui dados contínuos e categóricos. Estou analisando usando o PCA e estou me perguntando se é bom incluir as variáveis ​​categóricas como parte da análise. Meu entendimento é que o PCA só pode ser aplicado a variáveis ​​contínuas. Isso está correto? Se não …

6
Correlações com variáveis ​​categóricas não ordenadas
Eu tenho um quadro de dados com muitas observações e muitas variáveis. Alguns deles são categóricos (não ordenados) e outros são numéricos. Estou procurando associações entre essas variáveis. Consegui calcular a correlação para variáveis ​​numéricas (correlação de Spearman), mas: Não sei como medir a correlação entre variáveis ​​categóricas não ordenadas. …

3
Um exemplo: regressão do LASSO usando glmnet para resultado binário
Estou começando a se envolver com o uso de glmnetcom LASSO Regressão onde meu desfecho de interesse é dicotômica. Criei um pequeno quadro de dados simulado abaixo: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p …
78 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 


6
Maneira básica de colapsar variáveis ​​categóricas com muitos níveis?
Quais técnicas estão disponíveis para recolher (ou agrupar) muitas categorias para algumas, com o objetivo de usá-las como uma entrada (preditora) em um modelo estatístico? Considere uma variável como estudante universitário (disciplina escolhida por um estudante de graduação). É desordenado e categórico, mas pode potencialmente ter dezenas de níveis distintos. …


1
Codificação one-hot vs dummy no Scikit-learn
Existem duas maneiras diferentes de codificar variáveis ​​categóricas. Digamos, uma variável categórica tem n valores. A codificação one-hot converte-a em n variáveis, enquanto a codificação fictícia converte-a em n-1 variáveis. Se tivermos k variáveis ​​categóricas, cada uma com n valores. Uma codificação quente termina com variáveis kn , enquanto a …



5
Correlações entre variáveis ​​contínuas e categóricas (nominais)
Gostaria de encontrar a correlação entre uma variável contínua (variável dependente) e uma variável categórica (nominal: sexo, variável independente). Os dados contínuos não são normalmente distribuídos. Antes, eu tinha calculado usando o Spearman . No entanto, me disseram que isso não está certo.ρρ\rho Ao pesquisar na internet, descobri que o …


6
Melhore a classificação com muitas variáveis ​​categóricas
Estou trabalhando em um conjunto de dados com mais de 200.000 amostras e aproximadamente 50 recursos por amostra: 10 variáveis ​​contínuas e as outras ~ 40 são variáveis ​​categóricas (países, idiomas, campos científicos etc.). Para essas variáveis ​​categóricas, você tem, por exemplo, 150 países diferentes, 50 idiomas, 50 campos científicos, …


3


Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.