Perguntas com a marcação «clustering»

A análise de cluster é a tarefa de particionar dados em subconjuntos de objetos de acordo com sua "similaridade" mútua, sem usar conhecimento preexistente, como rótulos de classe. [Erros-padrão-cluster e / ou amostras-cluster devem ser marcados como tal; NÃO use a tag "clustering" para eles.]

2
Agrupamento de dados muito distorcidos e contados: alguma sugestão a ser feita (transformar etc)?
Problema básico Aqui está o meu problema básico: estou tentando agrupar um conjunto de dados que contém algumas variáveis ​​muito assimétricas com contagens. As variáveis ​​contêm muitos zeros e, portanto, não são muito informativas para o meu procedimento de agrupamento - o que provavelmente é um algoritmo k-means. Tudo bem, …


1
Como agrupar automaticamente uma matriz em U?
Depois de treinar um mapa auto-organizado, é possível calcular o U-Matrix . Existem algumas ferramentas para visualizá-lo manualmente e identificar clusters, mas estou me perguntando se existe algum algoritmo para executar esse processo de maneira automática (ou seja, não ter um humano olhando a figura para identificar os clusters). Há …

3
Métodos de inicialização do cluster K-means
Estou interessado no estado da arte atual para selecionar sementes iniciais (centros de cluster) para K-means. O Google leva a duas opções populares: seleção aleatória de sementes iniciais e, usando a técnica de seleção KMeans ++: Arthur & Vassilvitskii 2006 k-means ++: As vantagens da sementeira cuidadosa Existem outros métodos …

3
Quais são os métodos estatísticos que posso usar para encontrar combinações populares ou comuns de variáveis ​​categóricas?
Estou fazendo um estudo sobre o uso de drogas múltiplas. Eu tenho um conjunto de dados de 400 viciados em drogas, cada um declarando as drogas que abusam. Existem mais de 10 medicamentos e, portanto, existem grandes combinações possíveis. Recodifiquei a maioria das drogas que eles consomem em variáveis ​​binárias …



1
Como devo interpretar a estatística GAP?
Usei a estatística GAP para estimar k clusters em R. No entanto, não tenho certeza se a interpreto bem. A partir da trama acima, presumo que devo usar 3 clusters. No segundo lote, devo escolher 6 grupos. É uma interpretação correta da estatística GAP? Eu ficaria grato por qualquer explicação.
10 clustering 



3
Como obter um intervalo de confiança na mudança do quadrado da população
Para um exemplo simples, assuma que existem dois modelos de regressão linear Modelo 1 tem três preditores, x1a, x2b, ex2c O modelo 2 possui três preditores do modelo 1 e dois preditores adicionais x2aex2b Existe uma equação de regressão populacional em que a variação populacional explicada é para o Modelo …



1
Por que Anova () e drop1 () forneceram respostas diferentes para os GLMMs?
Eu tenho um GLMM do formulário: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Quando uso drop1(model, test="Chi"), obtenho resultados diferentes dos que utilizo Anova(model, type="III")na embalagem do carro ou summary(model). Estes dois últimos dão as mesmas respostas. Usando um monte de dados fabricados, …
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 


Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.