Perguntas com a marcação «continuous-data»

Uma variável aleatória X é chamado de contínuo se seu conjunto de valores possíveis for incontável e a chance de obter um valor específico for zero (P(X=x)=0 para cada número real x) Uma variável aleatória é contínua se, e somente se, sua função de distribuição de probabilidade cumulativa for uma função contínua.

6
Correlações com variáveis ​​categóricas não ordenadas
Eu tenho um quadro de dados com muitas observações e muitas variáveis. Alguns deles são categóricos (não ordenados) e outros são numéricos. Estou procurando associações entre essas variáveis. Consegui calcular a correlação para variáveis ​​numéricas (correlação de Spearman), mas: Não sei como medir a correlação entre variáveis ​​categóricas não ordenadas. …

3
Um exemplo: regressão do LASSO usando glmnet para resultado binário
Estou começando a se envolver com o uso de glmnetcom LASSO Regressão onde meu desfecho de interesse é dicotômica. Criei um pequeno quadro de dados simulado abaixo: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p …
78 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 






4
Prever com recursos contínuos e categóricos
Algumas técnicas de modelagem preditiva são mais projetadas para manipular preditores contínuos, enquanto outras são melhores para manipular variáveis ​​categóricas ou discretas. É claro que existem técnicas para transformar um tipo em outro (discretização, variáveis ​​dummy, etc.). No entanto, existem técnicas de modelagem preditiva projetadas para manipular os dois tipos …

2
Generalização contínua da distribuição binomial negativa
A distribuição binomial negativa (NB) é definida em números inteiros não negativos e tem função de massa de probabilidade f(k;r,p)=(k+r−1k)pk(1−p)r.f(k;r,p)=(k+r−1k)pk(1−p)r.f(k;r,p)={\binom {k+r-1}{k}}p^{k}(1-p)^{r}.Faz sentido considerar uma distribuição contínua em reais não negativos definidos pela mesma fórmula (substituindo k∈N0k∈N0k\in \mathbb N_0 por x∈R≥0x∈R≥0x\in\mathbb R_{\ge 0} )? O coeficiente binomial pode ser reescrito como …

2
Quando devemos discretizar / classificar variáveis ​​/ recursos independentes contínuos e quando não devemos?
Quando devemos discretizar / bin variáveis ​​/ recursos independentes e quando não devemos? Minhas tentativas de responder à pergunta: Em geral, não devemos fazer bin, porque o binning perderá informações. Na verdade, o binning está aumentando o grau de liberdade do modelo; portanto, é possível causar um ajuste excessivo após …






Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.