Perguntas com a marcação «clustering»

A análise de cluster é a tarefa de particionar dados em subconjuntos de objetos de acordo com sua "similaridade" mútua, sem usar conhecimento preexistente, como rótulos de classe. [Erros-padrão-cluster e / ou amostras-cluster devem ser marcados como tal; NÃO use a tag "clustering" para eles.]





1
Estado da arte em desduplicação
Quais são os métodos de ponta na desduplicação de registro? Às vezes, a desduplicação também é chamada: ligação de registro, resolução de entidade, resolução de identidade, mesclagem / eliminação. Eu sei, por exemplo, sobre CBLOCK [1]. Eu apreciaria se as respostas também incluíssem referências ao software existente que implementa os …

1
Uma rotina para escolher eps e minPts para DBSCAN
O DBSCAN é o algoritmo de cluster mais citado de acordo com a literatura e pode encontrar clusters de formas arbitrários com base na densidade. Ele tem dois parâmetros eps (como raio da vizinhança) e minPts (como vizinhos mínimos para considerar um ponto como ponto central), que eu acredito que …


5
Técnicas de agrupamento apropriadas para dados temporais?
Eu tenho dados temporais de frequências de atividade. Quero identificar clusters nos dados que indicam períodos distintos de tempo com níveis de atividade semelhantes. Idealmente, quero identificar os clusters sem especificar o número de clusters a priori. Quais são as técnicas de clustering apropriadas? Se minha pergunta não contém informações …



2
Compreendendo comparações de resultados de cluster
Estou experimentando a classificação de dados em grupos. Sou bastante novo neste tópico e estou tentando entender o resultado de algumas das análises. Usando exemplos do Quick-R , vários Rpacotes são sugeridos. Eu tentei usar dois desses pacotes ( fpcusando a kmeansfunção e mclust). Um aspecto desta análise que eu …
13 r  clustering 

1
LARS vs descida coordenada para o laço
Quais são os prós e os contras do uso do LARS [1] versus o uso da descida de coordenadas para ajustar a regressão linear regularizada por L1? Estou interessado principalmente em aspectos de desempenho (meus problemas tendem a ter Nentre centenas e milhares e p<20.) No entanto, quaisquer outras idéias …



3
Preciso descartar variáveis ​​correlacionadas / colineares antes de executar kmeans?
Estou executando kmeans para identificar grupos de clientes. Eu tenho aproximadamente 100 variáveis ​​para identificar clusters. Cada uma dessas variáveis ​​representa a% de gasto de um cliente em uma categoria. Portanto, se eu tiver 100 categorias, tenho essas 100 variáveis, de modo que a soma dessas variáveis ​​seja 100% para …

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.