Perguntas com a marcação «clustering»

A análise de cluster é a tarefa de particionar dados em subconjuntos de objetos de acordo com sua "similaridade" mútua, sem usar conhecimento preexistente, como rótulos de classe. [Erros-padrão-cluster e / ou amostras-cluster devem ser marcados como tal; NÃO use a tag "clustering" para eles.]

8
Medida de qualidade de cluster
Eu tenho um algoritmo de cluster (não k-means) com o parâmetro de entrada (número de clusters). Após executar o cluster, eu gostaria de obter uma medida quantitativa da qualidade desse cluster. O algoritmo de clustering tem uma propriedade importante. Para se eu alimentar pontos de dados sem nenhuma distinção significativa …
17 clustering 





3
Qual algoritmo o ward.D no hclust () implementa se não for o critério de Ward?
A utilizada pela opção "ward.D" (equivalente à única opção Ward "ward" nas versões R <= 3.0.3) não implementa o critério de agrupamento de Ward (1963), enquanto a opção "ward.D2" implementa esse critério ( Murtagh e Legendre 2014). ( http://stat.ethz.ch/R-manual/R-patched/library/stats/html/hclust.html ) Aparentemente, ward.D não implementa corretamente o critério de Ward. No …
16 r  clustering  ward 

4
Agrupando dados 1D
Eu tenho um conjunto de dados, quero criar clusters nesses dados com base em apenas uma variável (não há valores ausentes). Eu quero criar 3 clusters com base nessa variável. Qual algoritmo de clustering usar, k-means, EM, DBSCAN etc.? Minha principal pergunta é: em que circunstâncias devo usar k-means em …
16 clustering 


4
Pressupostos da análise de cluster
Desculpas pela pergunta rudimentar, sou novo nesta forma de análise e tenho uma compreensão muito limitada dos princípios até agora. Eu estava pensando se muitas das suposições paramétricas para testes multivariados / univariados se aplicam à análise de cluster? Muitas das fontes de informação que li sobre a análise de …


4
A precisão da máquina de aumento de gradiente diminui à medida que o número de iterações aumenta
Estou experimentando o algoritmo da máquina de aumento de gradiente através do caretpacote em R. Usando um pequeno conjunto de dados de admissões de faculdade, executei o seguinte código: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

4
Mineração de texto: como agrupar textos (por exemplo, artigos de notícias) com inteligência artificial?
Eu construí algumas redes neurais (MLP (totalmente conectadas), Elman (recorrente)) para tarefas diferentes, como jogar Pong, classificar dígitos manuscritos e outras coisas ... Além disso, tentei criar algumas primeiras redes neurais convolucionais, por exemplo, para classificar notas manuscritas de vários dígitos, mas sou completamente novo para analisar e agrupar textos, …


1
Qual é a intuição por trás de amostras intercambiáveis ​​sob a hipótese nula?
Os testes de permutação (também chamados de teste de randomização, teste de re-randomização ou teste exato) são muito úteis e úteis quando a suposição de distribuição normal exigida por, por exemplo, t-testnão é atendida e quando a transformação dos valores pela classificação do teste não-paramétrico como Mann-Whitney-U-testlevaria a mais informações …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

2
Detecção de séries temporais e anomalias
Gostaria de configurar um algoritmo para detectar uma anomalia em séries temporais, e pretendo usar o cluster para isso. Por que devo usar uma matriz de distância para agrupar e não os dados brutos de séries temporais ?, Para a detecção da anomalia, usarei o cluster baseado em densidade, um …

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.