Perguntas com a marcação «clustering»

A análise de cluster é a tarefa de particionar dados em subconjuntos de objetos de acordo com sua "similaridade" mútua, sem usar conhecimento preexistente, como rótulos de classe. [Erros-padrão-cluster e / ou amostras-cluster devem ser marcados como tal; NÃO use a tag "clustering" para eles.]



1
Como calcular a pureza?
Na análise de cluster, como calculamos a pureza? Qual é a equação? Não estou procurando um código para fazer isso por mim. Seja cluster ke classe j.c jωkωk\omega_kcjcjc_j Então a pureza é praticamente precisa? parece que estavam somando a quantidade de classe verdadeiramente classificada por cluster sobre o tamanho da …
15 clustering 

3
Como plotar a saída de dados do clustering?
Tentei agrupar um conjunto de dados (um conjunto de marcas) e obtive 2 clusters. Eu gostaria de representá-lo graficamente. Um pouco confuso sobre a representação, já que não tenho as coordenadas (x, y). Também procurando pela função MATLAB / Python para fazer isso. EDITAR Acho que a publicação de dados …

1
Qual método de comparação múltipla usar para um modelo mais antigo: lsmeans ou glht?
Estou analisando um conjunto de dados usando um modelo de efeitos mistos com um efeito fixo (condição) e dois efeitos aleatórios (participante devido ao design do sujeito e ao par). O modelo foi gerado com o lme4pacote: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Em seguida, realizei um teste de razão de verossimilhança desse modelo em …


2
k-significa vs k-mediana?
Eu sei que existe algoritmo de agrupamento k-means e mediana k. Um que usa a média como o centro do cluster e o outro usa a mediana. Minha pergunta é: quando / onde usar qual?



4
Como medir a forma do cluster?
Sei que essa pergunta não está bem definida, mas alguns aglomerados tendem a ser elípticos ou ficam no espaço dimensional mais baixo, enquanto outros têm formas não lineares (em exemplos 2D ou 3D). Existe alguma medida de não linearidade (ou "forma") de clusters? Observe que no espaço 2D e 3D, …

3
Alguém pode explicar a distorção dinâmica do tempo para determinar a similaridade de séries temporais?
Estou tentando entender a medida dinâmica de distorção do tempo para comparar séries temporais juntas. Eu tenho três conjuntos de dados de séries temporais como este: T1 <- structure(c(0.000213652387565, 0.000535045478866, 0, 0, 0.000219346347883, 0.000359669104424, 0.000269469145783, 0.00016051364366, 0.000181950509461, 0.000385579332948, 0.00078170803205, 0.000747244535774, 0, 0.000622858922454, 0.000689084895259, 0.000487983408564, 0.000224744353298, 0.000416449765747, 0.000308388157895, 0.000198906016907, 0.000179549331179, 9.06289650172e-05, …


3
Métricas
Alguém usa as métricas ou L .5 para agrupar, em vez de L 2 ? Aggarwal et al., Sobre o surpreendente comportamento das métricas de distância no espaço de alta dimensão, disseram (em 2001) queL1L1L_1L.5L.5L_.5L2L2L_2 é consistentemente mais preferível do que a métrica de distância euclidiana L 2 para aplicações …

9
Software de visualização para armazenamento em cluster
Bloqueado . Esta pergunta e suas respostas estão bloqueadas porque a questão está fora do tópico, mas tem um significado histórico. No momento, não está aceitando novas respostas ou interações. Eu quero agrupar ~ 22000 pontos. Muitos algoritmos de agrupamento funcionam melhor com suposições iniciais de maior qualidade. Quais ferramentas …


Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.