Perguntas com a marcação «descriptive-statistics»

A estatística descritiva resume as características de uma amostra, como média e desvio padrão, mediana e quartis, máximo e mínimo. Com várias variáveis, pode incluir correlações e crosstabs. Pode incluir exibições visuais - gráficos de caixa, histogramas, gráficos de dispersão e assim por diante.



3
Um exemplo: regressão do LASSO usando glmnet para resultado binário
Estou começando a se envolver com o uso de glmnetcom LASSO Regressão onde meu desfecho de interesse é dicotômica. Criei um pequeno quadro de dados simulado abaixo: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p …
78 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

4
Como 'somar' um desvio padrão?
Eu tenho uma média mensal para um valor e um desvio padrão correspondente a essa média. Agora estou computando a média anual como a soma das médias mensais, como posso representar o desvio padrão da média somada? Por exemplo, considerando a produção de um parque eólico: Month MWh StdDev January …




5
Correlações entre variáveis ​​contínuas e categóricas (nominais)
Gostaria de encontrar a correlação entre uma variável contínua (variável dependente) e uma variável categórica (nominal: sexo, variável independente). Os dados contínuos não são normalmente distribuídos. Antes, eu tinha calculado usando o Spearman . No entanto, me disseram que isso não está certo.ρρ\rho Ao pesquisar na internet, descobri que o …

3
Relação empírica entre média, mediana e moda
Para uma distribuição unimodal moderadamente inclinada, temos a seguinte relação empírica entre média, mediana e modo: Como foi essa relação derivado?(Média - Modo) ∼ 3(Média mediana)(Média - Modo)∼3(Média mediana) \text{(Mean - Mode)}\sim 3\,\text{(Mean - Median)} Karl Pearson planejou milhares desses relacionamentos antes de formar essa conclusão, ou existe uma linha …


6
Por que o denominador do estimador de covariância não deveria ser n-2 em vez de n-1?
O denominador do estimador de variância (imparcial) é pois existem observações e apenas um parâmetro está sendo estimado.nn−1n−1n-1nnn V(X)=∑ni=1(Xi−X¯¯¯¯)2n−1V(X)=∑i=1n(Xi−X¯)2n−1 \mathbb{V}\left(X\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)^{2}}{n-1} Da mesma forma, pergunto-me por que o denominador de covariância não deveria ser quando dois parâmetros estão sendo estimados?n−2n−2n-2 Cov(X,Y)=∑ni=1(Xi−X¯¯¯¯)(Yi−Y¯¯¯¯)n−1Cov(X,Y)=∑i=1n(Xi−X¯)(Yi−Y¯)n−1 \mathbb{Cov}\left(X, Y\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)\left(Y_{i}-\overline{Y}\right)}{n-1}

3


5
Como lidar com dados hierárquicos / aninhados no aprendizado de máquina
Vou explicar meu problema com um exemplo. Suponha que você queira prever a renda de um indivíduo, com alguns atributos: {Idade, Sexo, País, Região, Cidade}. Você tem um conjunto de dados de treinamento como esse train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

2
Variação é o mesmo que variação?
Esta é minha primeira pergunta sobre Validação cruzada aqui, então, por favor, me ajude, mesmo que pareça trivial :-) Antes de tudo, a pergunta pode ser resultado de diferenças de idioma ou talvez eu tenha deficiências reais nas estatísticas. No entanto, aqui está: Nas estatísticas populacionais, variação e variância são …

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.