O R vem com muitos conjuntos de dados e parece que não seria grande coisa reproduzir a maioria dos exemplos que você citou com poucas linhas de código. Você também pode achar útil o pacote mlbench , em particular conjuntos de dados sintéticos começando com mlbench.*
. Algumas ilustrações são dadas abaixo.
Você encontrará exemplos adicionais consultando a Cluster Task View no CRAN. Por exemplo, o pacote fpc possui um gerador interno para conjuntos de dados de benchmark "em forma de face" ( rFace
).
Considerações semelhantes se aplicam ao Python, onde você encontrará testes de benchmark e conjuntos de dados interessantes para agrupar com o scikit-learn .
O Repositório de Aprendizado de Máquina da UCI também hospeda muitos conjuntos de dados , mas é melhor você mesmo simular dados com o idioma de sua escolha.