Perguntas com a marcação «k-means»

k-means é um método para particionar dados em clusters localizando um número especificado de médias, k, st quando os dados são atribuídos a clusters com a média mais próxima, a soma dos quadrados do cluster w / i é minimizada

2
k-significa vs k-mediana?
Eu sei que existe algoritmo de agrupamento k-means e mediana k. Um que usa a média como o centro do cluster e o outro usa a mediana. Minha pergunta é: quando / onde usar qual?




3
Adequação da ANOVA após análise de cluster k-means
A notificação após a tabela ANOVA após a análise de médias K indica que os níveis de significância não devem ser encarados como teste de médias iguais, pois a solução de cluster foi derivada com base na distância euclidiana para maximizar a distância. Que teste devo usar para mostrar se …
14 anova  k-means 





2
Usando o BIC para estimar o número de k em KMEANS
No momento, estou tentando calcular o BIC para o meu conjunto de dados de brinquedos (ofc iris (:). Quero reproduzir os resultados conforme mostrado aqui (Fig. 5). Esse documento também é minha fonte para as fórmulas do BIC. Eu tenho 2 problemas com isso: Notação: ninin_i = número de elementos …


3
Preciso descartar variáveis ​​correlacionadas / colineares antes de executar kmeans?
Estou executando kmeans para identificar grupos de clientes. Eu tenho aproximadamente 100 variáveis ​​para identificar clusters. Cada uma dessas variáveis ​​representa a% de gasto de um cliente em uma categoria. Portanto, se eu tiver 100 categorias, tenho essas 100 variáveis, de modo que a soma dessas variáveis ​​seja 100% para …


1
k-significa || tcp K-Means escalável ++
Bahman Bahmani e cols. introduziu k-means ||, que é uma versão mais rápida do k-means ++. Este algoritmo é retirado da página 4 de seu artigo , Bahmani, B., Moseley, B., Vattani, A., Kumar, R. e Vassilvitskii, S. (2012). K-means escalável ++. Anais da Fundação VLDB , 5 (7), 622-633. …

5
Como executar a imputação de valores em um número muito grande de pontos de dados?
Eu tenho um conjunto de dados muito grande e faltam cerca de 5% de valores aleatórios. Essas variáveis ​​estão correlacionadas entre si. O exemplo a seguir do conjunto de dados R é apenas um exemplo de brinquedo com dados correlatos simulados. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.