Perguntas com a marcação «clustering»

A análise de cluster é a tarefa de particionar dados em subconjuntos de objetos de acordo com sua "similaridade" mútua, sem usar conhecimento preexistente, como rótulos de classe. [Erros-padrão-cluster e / ou amostras-cluster devem ser marcados como tal; NÃO use a tag "clustering" para eles.]

1
Alguém pode explicar o C-Index no contexto de cluster hierárquico?
Este é um acompanhamento para esta pergunta. Atualmente, estou tentando implementar o índice C para encontrar um número quase ideal de clusters de uma hierarquia de clusters. Eu faço isso calculando o Índice C para cada etapa do cluster hierárquico (aglomerativo). O problema é que o índice C é mínimo …

1
Quais são as principais diferenças entre análises taxométricas (por exemplo, MAXCOV, MAXEIG) e análises de classe latente?
Pesquisas recentes tentaram determinar se certas construções psicológicas são latentemente dimensionais ou taxônicas (isto é, incluindo táxons ou classes). Por exemplo, os pesquisadores podem estar interessados ​​em descobrir se existe uma certa "classe" de pessoas com maior probabilidade de desenvolver dor crônica após uma lesão ou se o risco de …

1
Detecção de forma para dados de séries temporais
Eu tenho uma grande coleção de séries temporais - medições feitas a cada 15 minutos (96 medições em um dia) ao longo de 1 ano em vários locais diferentes. Dividi cada série temporal em 365 séries temporais menores e separadas, uma para cada dia do ano. Observando essas séries temporais, …


4
Alguma sugestão para o método de agrupamento para número desconhecido de clusters e distância não euclidiana?
Preciso de algumas sugestões para o método de agrupamento (classificação não supervisionada) para um projeto de consultoria. Estou procurando um método que esperançosamente tenha as seguintes propriedades: O assunto do meu estudo tem três propriedades. Um é representado por uma matriz de distância (não-euclidiana) e os outros dois estão na …



2
Escolhendo o número de clusters - critérios de validação de clustering vs considerações teóricas de domínio
Costumo enfrentar a questão de ter que escolher um número de clusters. A partição que acabo escolhendo é mais frequentemente baseada em preocupações visuais e teóricas do que em critérios de qualidade. Eu tenho duas perguntas principais. O primeiro diz respeito à idéia geral de qualidade dos clusters. Pelo que …

2
Cluster de séries temporais multivariadas
Estou coletando um grupo de seqüências de tempo multivariadas. Por exemplo, existem 2000 séries temporais. Cada série temporal é de 12 dimensões. Existem modelos / algoritmos sistemáticos que podem agrupar séries temporais multivariadas? Por exemplo, gostaria de identificar algumas séries temporais muito diferentes das outras. Além disso, para o monitoramento …


2
algoritmo k-means ++ e valores discrepantes
É sabido que o algoritmo k-means sofre na presença de outliers. O k-means ++ é um método eficaz para a initalização do centro de cluster. Eu estava analisando o PPT pelos fundadores do método, Sergei Vassilvitskii e David Arthur http://theory.stanford.edu/~sergei/slides/BATS-Means.pdf (slide 28), que mostra que a inicialização do centro de …

2
Processo de restaurante chinês (CRP)
Estou tentando entender o processo de restaurante chinês (CRP) e o processo de restaurante chinês ponderado (WCRP) descrito em um artigo de pesquisa "Descoberta automática de habilidades cognitivas" - Robert V. Lindsey, Mohammad Khajah, Michael C. Mozer para melhorar a previsão de Aprendizagem do aluno. No CRP, todas as implementações …

1
Por que a maioria dos meus pontos é classificada como ruído usando o DBSCAN?
Estou usando vários algoritmos de cluster do sklearn para agrupar alguns dados e não consigo descobrir o que está acontecendo com o DBSCAN. Meus dados são uma matriz de termos de documento do TfidfVectorizer, com algumas centenas de documentos pré-processados. Código: tfv = TfidfVectorizer(stop_words=STOP_WORDS, tokenizer=StemTokenizer()) data = tfv.fit_transform(dataset) db = …

2
Gerando um conjunto de dados de alta dimensão onde o vizinho mais próximo se torna sem sentido
No artigo " Quando o 'vizinho mais próximo' é significativo? ", Lemos que, Mostramos que, sob certas condições amplas (em termos de distribuição de dados e consultas ou carga de trabalho), à medida que a dimensionalidade aumenta, a distância do vizinho mais próximo se aproxima da distância do vizinho mais …
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.