Vou comentar em segundo lugar no @suncoolsu: a dimensionalidade do seu conjunto de dados não é o único critério que deve orientá-lo em direção a um software específico. Por exemplo, se você planeja fazer cluster não supervisionado ou usar o PCA, existem várias ferramentas dedicadas que lidam com grandes conjuntos de dados, como comumente encontrado em estudos genômicos.
Agora, R (64 bits) lida com grandes volumes de dados muito bem, e você ainda tem a opção de armazenamento em disco uso em vez de acesso RAM, mas ver CRAN Task Ver alto desempenho e computação paralela com R . GLM padrão acomodará facilmente 20.000 obs. (mas veja também speedglm ) dentro de um prazo razoável, conforme mostrado abaixo:
> require(MASS)
> n <- 20000
> X <- mvrnorm(n, mu=c(0,0), Sigma=matrix(c(1,.8,.8,1), 2, 2))
> df <- cbind.data.frame(X, grp=gl(4, n/4), y=sample(c(0,1), n, rep=TRUE))
> system.time(glm(y ~ ., data=df))
user system elapsed
0.361 0.018 0.379
Para dar uma ilustração mais concreta, usei R para processar e analisar grandes dados genéticos (800 indivíduos x 800k SNPs , onde o principal modelo estatístico era um GLM estratificado com várias covariáveis (2 min); isso foi possível graças ao eficiente R e Os códigos C disponíveis no pacote snpMatrix (em comparação, o mesmo tipo de modelo levou cerca de 8 minutos usando um software C ++ dedicado ( plink ) .Eu também trabalhei em um estudo clínico (12k pacientes x 50 variáveis de interesse) e R se encaixa nas minhas necessidades Finalmente, até onde eu sei, o pacote lme4 é o único software que permite ajustar o modelo de efeitos mistos a conjuntos de dados grandes e desequilibrados (como é o caso da avaliação educacional em larga escala).
Stata / SE é outro software que pode lidar com grandes conjuntos de dados . O SAS e o SPSS são softwares baseados em arquivos; portanto, eles lidam com grandes volumes de dados. Uma análise comparativa do software para datamining está disponível em Data Mining Tools: Qual é o melhor para CRM . Para visualização, também há muitas opções; talvez um bom começo seja Gráficos de grandes conjuntos de dados: visualizando um milhão ( revisado no JSS por P Murrell) e todos os tópicos relacionados neste site.