Eu sou novo na ciência de dados e tenho um problema ao encontrar clusters em um conjunto de dados com 200.000 linhas e 50 colunas em R.
Como os dados têm variáveis numéricas e nominais, métodos como o K-significa que usa a medida de distância euclidiana não parece ser uma escolha apropriada. Então, volto-me ao PAM, agnes e hclust, que aceita uma matriz de distância como entrada.
O método daisy pode funcionar em dados de tipo misto, mas a matriz de distância é muito grande: 200.000 vezes 200.000 é muito maior que 2 ^ 31-1 (o limite de comprimento do vetor antes de R 3.0.0.)
O novo R 3.0.0 lançado ontem suporta vetores longos com comprimento maior que 2 ^ 31-1. Mas uma matriz dupla de 200.000 a 200.000 exige uma RAM contínua maior que 16Gb, o que não é possível na minha máquina.
Eu li sobre computação paralela e pacote bigmemory e não tenho certeza se eles vão ajudar: se eu estiver usando o daisy, ele gerará uma grande matriz que não pode caber na memória.
Também li sobre o post sobre amostragem: a amostragem é relevante no momento do 'big data'?
Então, no meu caso, é relevante usar amostragem no conjunto de dados, agrupar na amostra e inferir a estrutura de todo o conjunto de dados?
Você pode me dar alguma sugestão? Obrigado!
Sobre minha máquina:
R versão 3.0.0 (03-04-2013)
Plataforma: x86_64-w64-mingw32 / x64 (64 bits)
Sistema operativo: Windows 7 64bit
RAM: 16.0GB