Estatísticas e Big Data k-means

1

Diferença entre algoritmos k-médias padrão e esféricos

Eu gostaria de entender, qual é a principal diferença de implementação entre os algoritmos de agrupamento padrão e esférico de k-means. Em cada etapa, k-means calcula as distâncias entre vetores de elementos e centróides do cluster e reatribui o documento a esse cluster, cujo centróide é o mais próximo. Então, …

28 clustering data-mining algorithms k-means

2

Como usar variáveis binárias e contínuas juntas no clustering?

Preciso usar variáveis binárias (valores 0 e 1) em médias k. Mas k-means funciona apenas com variáveis contínuas. Eu sei que algumas pessoas ainda usam essas variáveis binárias em k-means, ignorando o fato de que k-means é projetado apenas para variáveis contínuas. Isso é inaceitável para mim. Questões: Então, qual …

27 r clustering binary-data k-means mixed-type-data

5

Procedimento de clustering em que cada cluster tem um número igual de pontos?

Eu tenho alguns pontos em e quero agrupar os pontos para que:X= { x1, . . . , xn}X={x1,...,xn}X=\{x_1,...,x_n\}RpRpR^p Cada grupo contém um número igual de elementos de . (Suponha que o número de clusters divida .)XXXnnn Cada agrupamento é "espacialmente coeso" em algum sentido, como os agrupamentos de -eans.kkk …

25 machine-learning clustering k-means unsupervised-learning

3

Determinar diferentes clusters de dados 1d do banco de dados

Eu tenho uma tabela de banco de dados de transferências de dados entre nós diferentes. Este é um enorme banco de dados (com quase 40 milhões de transferências). Um dos atributos é o número de transferências de bytes (nbytes) que variam de 0 bytes a 2 tera bytes. Gostaria de …

24 clustering k-means

8

Execute o agrupamento K-means (ou seus parentes próximos) com apenas uma matriz de distância, não dados de pontos por recurso

Quero executar o agrupamento K-means nos objetos que tenho, mas os objetos não são descritos como pontos no espaço, ou seja, por objects x featuresconjunto de dados. No entanto, sou capaz de calcular a distância entre dois objetos (ela se baseia em uma função de similaridade). Então, eu descarto a …

22 machine-learning clustering data-mining k-means distance

2

Se o agrupamento k-means é uma forma de modelagem de mistura gaussiana, ele pode ser usado quando os dados não são normais?

Estou lendo Bishop no algoritmo EM para GMM e a relação entre GMM e k-means. Neste livro, diz que k-means é uma versão de atribuição difícil do GMM. Gostaria de saber se isso implica que, se os dados que estou tentando agrupar não forem gaussianos, não posso usar o k-means …

21 clustering data-mining k-means gaussian-mixture

4

Agrupando uma Matriz de Correlação

Eu tenho uma matriz de correlação que indica como cada item é correlacionado com o outro item. Portanto, para um N itens, eu já tenho uma matriz de correlação N * N. Usando essa matriz de correlação, como agrupo os N itens nos compartimentos M para que eu possa dizer …

20 clustering python k-means

2

Prova de convergência de médias k

Para uma tarefa, fui solicitado a fornecer uma prova de que k-means converge em um número finito de etapas. Isto é o que eu escrevi: A seguir, CCC é uma coleção de todos os centros de cluster. Definir uma “energia” função E(C)=∑xmini=1k∥x−ci∥2E(C)=∑xmini=1k‖x−ci‖2E(C)=\sum_{\mathbf{x}}\min_{i=1}^{k}\left\Vert \mathbf{x}-\mathbf{c}_{i}\right\Vert ^{2} A função de energia é não-negativo. …

20 mathematical-statistics k-means

4

Como entender as desvantagens do cluster hierárquico?

Alguém pode explicar os prós e os contras do cluster hierárquico? O cluster hierárquico tem as mesmas desvantagens que K significa? Quais são as vantagens do cluster hierárquico sobre o K significa? Quando devemos usar os meios K sobre o cluster hierárquico e vice-versa? As respostas a este post explicam …

19 clustering k-means unsupervised-learning hierarchical-clustering

3

Estimando os recursos mais importantes em uma partição de cluster k-means

Existe uma maneira de determinar quais recursos / variáveis do conjunto de dados são os mais importantes / dominantes em uma solução de cluster k-means?

19 machine-learning clustering k-means importance

3

Por que a estatística de gap para k-means sugere um cluster, mesmo que obviamente haja dois deles?

Estou usando o K-means para agrupar meus dados e estava procurando uma maneira de sugerir um número de cluster "ideal". As estatísticas de gap parecem ser uma maneira comum de encontrar um bom número de cluster. Por alguma razão, ele retorna 1 como o número ideal do cluster, mas quando …

18 r machine-learning clustering k-means

3

Plotar visualmente dados de cluster multidimensionais

Eu tenho um conjunto de dados com 16 variáveis e, depois de agrupar por kmeans, desejo plotar os dois grupos. Que plotagens você sugere para representar visualmente os dois grupos?

17 data-visualization clustering k-means

5

Por que o k-significa não fornece o mínimo global?

Eu li que o algoritmo k-means apenas converge para um mínimo local e não para um mínimo global. Por que é isso? Posso pensar logicamente como a inicialização pode afetar o clustering final e existe a possibilidade de clustering abaixo do ideal, mas não encontrei nada que provasse isso matematicamente. …

17 clustering k-means convergence gradient-descent minimum

4

A precisão da máquina de aumento de gradiente diminui à medida que o número de iterações aumenta

Estou experimentando o algoritmo da máquina de aumento de gradiente através do caretpacote em R. Usando um pequeno conjunto de dados de admissões de faculdade, executei o seguinte código: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

1

A maldição da dimensionalidade afeta alguns modelos mais do que outros?

Os lugares que eu tenho lido sobre a maldição da dimensionalidade explicam isso em conjunto com o kNN principalmente, e com os modelos lineares em geral. Eu vejo regularmente os principais executivos do Kaggle usando milhares de recursos no conjunto de dados que dificilmente tem 100 mil pontos de dados. …

15 neural-networks svm k-means k-nearest-neighbour high-dimensional

Perguntas com a marcação «k-means»