Procurando dados artificiais 2D para demonstrar propriedades de algoritmos de cluster


9

Estou procurando conjuntos de dados de pontos de dados bidimensionais (cada ponto de dados é um vetor de dois valores (x, y)) seguindo diferentes distribuições e formulários. O código para gerar esses dados também seria útil. Eu quero usá-los para plotar / visualizar o desempenho de alguns algoritmos de cluster. aqui estão alguns exemplos:


Eu voto para cw;)
steffen

Uma pergunta semelhante em linhas de conjuntos de dados específicos foi encerrada aqui: stats.stackexchange.com/questions/38928/…
hearse

Para o SPSS, escrevi uma macro geradora de cluster (visite minha página, consulte "Gerar clusters"). No entanto, não produz formas pretensiosas, como anéis ou espirais.
precisa saber é o seguinte

Respostas:


11

O R vem com muitos conjuntos de dados e parece que não seria grande coisa reproduzir a maioria dos exemplos que você citou com poucas linhas de código. Você também pode achar útil o pacote mlbench , em particular conjuntos de dados sintéticos começando com mlbench.*. Algumas ilustrações são dadas abaixo.

insira a descrição da imagem aqui

Você encontrará exemplos adicionais consultando a Cluster Task View no CRAN. Por exemplo, o pacote fpc possui um gerador interno para conjuntos de dados de benchmark "em forma de face" ( rFace).

insira a descrição da imagem aqui

Considerações semelhantes se aplicam ao Python, onde você encontrará testes de benchmark e conjuntos de dados interessantes para agrupar com o scikit-learn .

O Repositório de Aprendizado de Máquina da UCI também hospeda muitos conjuntos de dados , mas é melhor você mesmo simular dados com o idioma de sua escolha.



2

Este benchmark de agrupamento de brinquedos contém vários conjuntos de dados no formato ARFF (podem ser facilmente convertidos em CSV), principalmente com rótulos verdadeiros. O benchmark deve validar as propriedades básicas desejadas dos algoritmos de clustering. A maioria dos conjuntos de dados vem de documentos de cluster, como:

  • BIRCH - Zhang, Tian, ​​Raghu Ramakrishnan e Miron Livny. "BIRCH: um método eficiente de agrupamento de dados para bancos de dados muito grandes." Registro ACM SIGMOD. Vol. 25. No. 2. ACM, 1996.
  • CURE - Guha, Sudipto, Rajeev Rastogi e Kyuseok Shim. "CURE: um algoritmo de agrupamento eficiente para grandes bancos de dados." Registro ACM SIGMOD. Vol. 27. No. 2. ACM, 1998.
  • Camaleão - Karypis, George, Eui-Hong Han e Vipin Kumar. "Chameleon: cluster hierárquico usando modelagem dinâmica." Computer 32.8 (1999): 68-75.
  • The Fundamental Clustering Problem Suite - Ultsch, A .: Clustering com SOM: U * C, In Proc. Workshop sobre mapas auto-organizados, Paris, França, (2005), pp. 75-82
  • MOCK - Handl, Julia e Joshua Knowles. "Uma abordagem evolutiva do agrupamento multiobjetivo". Computação Evolutiva, Transações IEEE em 11.1 (2007): 56-76.
  • Cluster espectral robusto baseado em caminhos - Chang, Hong e Dit-Yan Yeung. "Agrupamento espectral robusto baseado em caminho." Reconhecimento de Padrões 41.1 (2008): 191-203.

dados de karypis dados cluto


1

O ELKI vem com alguns conjuntos de dados (verifique também os testes de unidade, eles contêm muito mais do que aqueles no site, juntamente com as configurações dos parâmetros).

Ele também inclui um gerador de dados bastante flexível.


1

Aqui está um gerador de cluster personalizável. Ele aborda apenas uma certa classe de conjuntos de dados, mas certamente pode ser usado para investigações de algoritmos de cluster.

Aqui está um exemplo do tipo de clusters que ele pode criar:

http://i.stack.imgur.com/vrCG5.png

A afiliação de cluster é salva em um arquivo de texto. O código é de código aberto sob licença MIT.


1

Esse script do Matlab gera dados 2D para cluster. Ele aceita vários parâmetros para que os dados gerados estejam dentro dos requisitos do usuário.


Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.