Perguntas com a marcação «clustering»

A análise de cluster é a tarefa de particionar dados em subconjuntos de objetos de acordo com sua "similaridade" mútua, sem usar conhecimento preexistente, como rótulos de classe. [Erros-padrão-cluster e / ou amostras-cluster devem ser marcados como tal; NÃO use a tag "clustering" para eles.]

Existe uma função no R que leva os centros de clusters encontrados e atribui clusters a um novo conjunto de dados

Eu tenho duas partes de um conjunto de dados multidimensionais, vamos chamá-los traine test. E quero criar um modelo com base no conjunto de dados do trem e validá-lo no conjunto de dados de teste. O número de clusters é conhecido. Tentei aplicar o agrupamento k-means no R e obtive …

14 r clustering k-means

Implementação k-means com matriz de distância personalizada na entrada

Alguém pode me indicar uma implementação de k-means (seria melhor se no matlab) que pode levar a matriz de distância na entrada? A implementação padrão do matlab precisa da matriz de observação na entrada e não é possível alterar de forma personalizada a medida de similaridade.

14 clustering matlab k-means

Cluster (k-mean ou outro) com uma restrição de tamanho mínimo de cluster

Preciso agrupar unidades em clusters para minimizar a soma de quadrados dentro do grupo (WSS), mas preciso garantir que cada um dos clusters contenha pelo menos m unidades. Alguma idéia se alguma das funções de cluster de R permitir agrupar em k clusters sujeitos a uma restrição mínima de tamanho …

14 r clustering

Como posso converter a distância (euclidiana) em pontuação de similaridade

Estou usando kkk significa agrupar para agrupar as vozes dos alto-falantes. Quando comparo um enunciado com os dados do alto-falante em cluster, obtenho distorção média (baseada na distância euclidiana). Essa distância pode estar na faixa de [0,∞][0,∞][0,\infty] . Eu quero converter essa distância para uma pontuação de similaridade [0,1][0,1][0,1] . …

13 clustering k-means distance euclidean

Estado da arte em desduplicação

Quais são os métodos de ponta na desduplicação de registro? Às vezes, a desduplicação também é chamada: ligação de registro, resolução de entidade, resolução de identidade, mesclagem / eliminação. Eu sei, por exemplo, sobre CBLOCK [1]. Eu apreciaria se as respostas também incluíssem referências ao software existente que implementa os …

13 clustering data-cleaning record-linkage

Uma rotina para escolher eps e minPts para DBSCAN

O DBSCAN é o algoritmo de cluster mais citado de acordo com a literatura e pode encontrar clusters de formas arbitrários com base na densidade. Ele tem dois parâmetros eps (como raio da vizinhança) e minPts (como vizinhos mínimos para considerar um ponto como ponto central), que eu acredito que …

13 clustering dbscan

Agrupe Big Data em R e a amostragem é relevante?

Eu sou novo na ciência de dados e tenho um problema ao encontrar clusters em um conjunto de dados com 200.000 linhas e 50 colunas em R. Como os dados têm variáveis numéricas e nominais, métodos como o K-significa que usa a medida de distância euclidiana não parece ser uma …

13 r clustering sampling large-data

Técnicas de agrupamento apropriadas para dados temporais?

Eu tenho dados temporais de frequências de atividade. Quero identificar clusters nos dados que indicam períodos distintos de tempo com níveis de atividade semelhantes. Idealmente, quero identificar os clusters sem especificar o número de clusters a priori. Quais são as técnicas de clustering apropriadas? Se minha pergunta não contém informações …

13 machine-learning clustering

Inicializando centros K-means por meio de subamostras aleatórias do conjunto de dados?

Se eu tiver um determinado conjunto de dados, quão inteligente seria inicializar os centros de cluster usando meios de amostras aleatórias desse conjunto de dados? Por exemplo, suponha que eu queira 5 clusters. Tomo 5 random samples, digamos, size=20%o conjunto de dados original. Eu poderia então tomar a média de …

13 clustering k-means unsupervised-learning

Usando o teste de significância estatística para validar os resultados da análise de cluster

Estou pesquisando o uso do teste de significância estatística (SST) para validar os resultados da análise de cluster. Encontrei vários artigos sobre esse tópico, como " Significância estatística do agrupamento para dados de alta dimensão e tamanho de amostra baixo ", de Liu, Yufeng et al. (2008) " Em alguns …

13 hypothesis-testing clustering statistical-significance

Compreendendo comparações de resultados de cluster

Estou experimentando a classificação de dados em grupos. Sou bastante novo neste tópico e estou tentando entender o resultado de algumas das análises. Usando exemplos do Quick-R , vários Rpacotes são sugeridos. Eu tentei usar dois desses pacotes ( fpcusando a kmeansfunção e mclust). Um aspecto desta análise que eu …

13 r clustering

LARS vs descida coordenada para o laço

Quais são os prós e os contras do uso do LARS [1] versus o uso da descida de coordenadas para ajustar a regressão linear regularizada por L1? Estou interessado principalmente em aspectos de desempenho (meus problemas tendem a ter Nentre centenas e milhares e p<20.) No entanto, quaisquer outras idéias …

13 regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

A desigualdade do triângulo é cumprida para essas distâncias baseadas em correlação?

Para cluster hierárquico, geralmente vejo as duas "métricas" a seguir (elas não estão falando exatamente) para medir a distância entre duas variáveis aleatórias e : \ newcommand {\ Cor} {\ mathrm {Cor}} \ begin {align} d_1 (X, Y) & = 1- | \ COR (X, Y) |, \\ d_2 (X, …

13 correlation clustering distance metric

O que você faz quando não há ponto de cotovelo para o agrupamento de kmeans

Aprendi que, ao escolher um número de clusters, você deve procurar um ponto de cotovelo para diferentes valores de K. Plotei os valores de ininss para valores de k de 1 a 10, mas não estou vendo uma clara cotovelo. O que você faz em um caso como esse?

13 clustering k-means

Preciso descartar variáveis correlacionadas / colineares antes de executar kmeans?

Estou executando kmeans para identificar grupos de clientes. Eu tenho aproximadamente 100 variáveis para identificar clusters. Cada uma dessas variáveis representa a% de gasto de um cliente em uma categoria. Portanto, se eu tiver 100 categorias, tenho essas 100 variáveis, de modo que a soma dessas variáveis seja 100% para …

13 clustering data-mining k-means multicollinearity compositional-data

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.

Licensed under cc by-sa 3.0 with attribution required.