Perguntas com a marcação «large-data»

'Dados grandes' refere-se a situações em que o número de observações (pontos de dados) é tão grande que requer mudanças na maneira como o analista de dados pensa ou conduz a análise. (Não confunda com 'alta dimensionalidade'.)


3
Como selecionar rapidamente variáveis ​​importantes de um conjunto de dados muito grande?
Eu tenho um conjunto de dados com cerca de 2.000 variáveis ​​binárias / 200.000 linhas e estou tentando prever uma única variável dependente binária. Meu principal objetivo, neste estágio, não é obter precisão de previsão, mas identificar quais dessas variáveis ​​são preditores importantes. Gostaria de reduzir o número de variáveis …

3
Cluster com economia de espaço
A maioria dos algoritmos de agrupamento que eu vi começou com a criação de distâncias cada um entre todos os pontos, o que se torna problemático em conjuntos de dados maiores. Existe alguém que não faz isso? Ou faz isso em algum tipo de abordagem parcial / aproximada / escalonada? …


4
Estimando a dimensão de um conjunto de dados
Um colega em estatística aplicada me enviou o seguinte: "Gostaria de saber se você conhece alguma maneira de descobrir a verdadeira dimensão do domínio de uma função. Por exemplo, um círculo é uma função unidimensional em um espaço bidimensional. Se eu não souber desenhar, existe uma estatística que eu posso …


1
Floresta aleatória em uma configuração de Big Data
Eu tenho um conjunto de dados com 5.818.446 linhas e 51 colunas, onde 50 delas são preditores. Minha resposta é quantitativa, por isso estou interessado em um modelo de regressão. Estou tentando ajustar uma floresta aleatória aos meus dados usando o pacote de intercalação. No entanto, não tenho RAM suficiente …

5
Por que os regressores irrelevantes se tornam estatisticamente significativos em amostras grandes?
Estou tentando entender melhor a significância estatística, os tamanhos dos efeitos e similares. Tenho uma percepção (talvez errada) de que mesmo regressores irrelevantes geralmente se tornam estatisticamente significativos em grandes amostras . Por irrelevante, quero dizer que não há explicação no assunto por que o regressor deve estar relacionado à …

2
Por que um modelo estatístico superajustaria se recebesse um grande conjunto de dados?
Meu projeto atual pode exigir que eu construa um modelo para prever o comportamento de um determinado grupo de pessoas. o conjunto de dados de treinamento contém apenas 6 variáveis ​​(id é apenas para fins de identificação): id, age, income, gender, job category, monthly spend em que monthly spendé a …
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 


2
R como uma alternativa ao SAS para grandes dados
Eu sei que R não é particularmente útil para analisar grandes conjuntos de dados, uma vez que R carrega todos os dados na memória, enquanto algo como o SAS faz análise sequencial. Dito isto, existem pacotes como o bigmemory que permitem aos usuários realizar análises de grandes dados (análise estatística) …
8 r  sas  large-data 



Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.