Perguntas com a marcação «clustering»

A análise de cluster é a tarefa de particionar dados em subconjuntos de objetos de acordo com sua "similaridade" mútua, sem usar conhecimento preexistente, como rótulos de classe. [Erros-padrão-cluster e / ou amostras-cluster devem ser marcados como tal; NÃO use a tag "clustering" para eles.]

5
Como entender as desvantagens do K-means
K-means é um método amplamente utilizado na análise de agrupamentos. No meu entendimento, esse método NÃO requer QUALQUER suposição, ou seja, me forneça um conjunto de dados e um número pré-especificado de clusters, k, e apenas aplico esse algoritmo que minimiza a soma dos erros ao quadrado (SSE), o cluster …

8
Por que a distância euclidiana não é uma boa métrica em grandes dimensões?
Li que "a distância euclidiana não é uma boa distância em grandes dimensões". Acho que essa afirmação tem algo a ver com a maldição da dimensionalidade, mas o que exatamente? Além disso, o que são 'altas dimensões'? Tenho aplicado clustering hierárquico usando distância euclidiana com 100 recursos. Até quantos recursos …



3
Um exemplo: regressão do LASSO usando glmnet para resultado binário
Estou começando a se envolver com o uso de glmnetcom LASSO Regressão onde meu desfecho de interesse é dicotômica. Criei um pequeno quadro de dados simulado abaixo: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p …
78 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

6
Agrupamento na saída do t-SNE
Eu tenho um aplicativo em que seria útil agrupar um conjunto de dados barulhento antes de procurar efeitos de subgrupos nos clusters. Olhei pela primeira vez para o PCA, mas são necessários ~ 30 componentes para atingir 90% da variabilidade; portanto, agrupar apenas alguns PCs descartará muita informação. Eu tentei …




6
Onde cortar um dendrograma?
O cluster hierárquico pode ser representado por um dendograma. Cortar um dendrograma em um determinado nível fornece um conjunto de clusters. Cortar em outro nível fornece outro conjunto de clusters. Como você escolheria onde cortar o dendrograma? Existe algo que poderíamos considerar um ponto ideal? Se eu olhar um dendrograma …

5
Qual é a relação entre o cluster de k-means e o PCA?
É uma prática comum aplicar o PCA (análise de componentes principais) antes de um algoritmo de armazenamento em cluster (como k-means). Acredita-se que melhora os resultados do agrupamento na prática (redução de ruído). No entanto, estou interessado em um estudo comparativo e aprofundado da relação entre PCA e k-médias. Por …

10
Como decidir o número correto de clusters?
Encontramos os centros de cluster e atribuímos pontos a k diferentes compartimentos de cluster no cluster k-means, que é um algoritmo muito conhecido e é encontrado quase em todos os pacotes de aprendizado de máquina da rede. Mas a parte que falta e mais importante na minha opinião é a …

10
Clustering com uma matriz de distância
Eu tenho uma matriz (simétrica) Mque representa a distância entre cada par de nós. Por exemplo, ABCDEFGHIJKL A 0 20 20 20 40 60 60 60 100 120 120 120 B 20 0 20 20 60 80 80 80 120 140 140 140 C 20 20 0 20 60 80 …
52 clustering 



Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.