Perguntas com a marcação «stratification»


2
Por que usar a validação cruzada estratificada? Por que isso não prejudica o benefício relacionado à variação?
Disseram-me que é benéfico usar a validação cruzada estratificada, especialmente quando as classes de resposta são desequilibradas. Se um objetivo da validação cruzada é ajudar a explicar a aleatoriedade da nossa amostra de dados de treinamento original, certamente fazer com que cada dobra tenha a mesma distribuição de classe funcionaria …

1
Benefícios da amostragem estratificada vs aleatória para gerar dados de treinamento na classificação
Gostaria de saber se existem / algumas vantagens em usar amostragem estratificada em vez de aleatória, ao dividir o conjunto de dados original em conjunto de treinamento e teste para classificação. Além disso, a amostragem estratificada introduz mais viés no classificador do que a amostragem aleatória? O aplicativo, para o …

1
O ajuste do modelo Cox com estratos e interação estrato-covariável difere do ajuste de dois modelos Cox?
Em Estratégias de modelagem de regressão, de Harrell (segunda edição), há uma seção (S. 20.1.7) discutindo modelos de Cox, incluindo uma interação entre uma covariável cujo principal efeito sobre a sobrevivência também queremos estimar (idade no exemplo abaixo) e uma covariável cujo principal efeito não queremos estimar (gênero no exemplo …



2
Amostragem com substituição em R randomForest
A implementação randomForest não permite amostragem além do número de observações, mesmo quando amostragem com substituição. Por que é isso? Funciona bem: rf <- randomForest(Species ~ ., iris, sampsize=c(1, 1, 1), replace=TRUE) rf <- randomForest(Species ~ ., iris, sampsize=3, replace=TRUE) O que eu quero fazer: rf <- randomForest(Species ~ ., …

3
Modelo multinível vs. modelos separados para cada nível
Quais são as vantagens e desvantagens de executar modelos separados versus modelagem multinível? Mais particularmente, suponha que um estudo examinasse pacientes aninhados nas práticas médicas aninhadas nos países. Quais são as vantagens / desvantagens de executar modelos separados para cada país versus um modelo aninhado de três níveis?

1
Por que Anova () e drop1 () forneceram respostas diferentes para os GLMMs?
Eu tenho um GLMM do formulário: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Quando uso drop1(model, test="Chi"), obtenho resultados diferentes dos que utilizo Anova(model, type="III")na embalagem do carro ou summary(model). Estes dois últimos dão as mesmas respostas. Usando um monte de dados fabricados, …
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 


3
Encontre distribuição e transforme em distribuição normal
Eu tenho dados que descrevem com que frequência um evento ocorre durante uma hora ("número por hora", nph) e quanto tempo os eventos duram ("duração em segundos por hora", dph). Estes são os dados originais: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, …
8 normal-distribution  data-transformation  logistic  generalized-linear-model  ridge-regression  t-test  wilcoxon-signed-rank  paired-data  naive-bayes  distributions  logistic  goodness-of-fit  time-series  eviews  ecm  panel-data  reliability  psychometrics  validity  cronbachs-alpha  self-study  random-variable  expected-value  median  regression  self-study  multiple-regression  linear-model  forecasting  prediction-interval  normal-distribution  excel  bayesian  multivariate-analysis  modeling  predictive-models  canonical-correlation  rbm  time-series  machine-learning  neural-networks  fishers-exact  factorisation-theorem  svm  prediction  linear  reinforcement-learning  cdf  probability-inequalities  ecdf  time-series  kalman-filter  state-space-models  dynamic-regression  index-decomposition  sampling  stratification  cluster-sample  survey-sampling  distributions  maximum-likelihood  gamma-distribution 
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.