Perguntas com a marcação «large-data»

'Dados grandes' refere-se a situações em que o número de observações (pontos de dados) é tão grande que requer mudanças na maneira como o analista de dados pensa ou conduz a análise. (Não confunda com 'alta dimensionalidade'.)

4
Como projetar um novo vetor no espaço PCA?
Depois de executar a análise de componentes principais (PCA), quero projetar um novo vetor no espaço do PCA (ou seja, encontrar suas coordenadas no sistema de coordenadas do PCA). Eu calculei o PCA na linguagem R usando prcomp. Agora eu devo poder multiplicar meu vetor pela matriz de rotação PCA. …
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

1
Realmente realizamos análises de regressão multivariada com * milhão * coeficientes / variáveis ​​independentes?
Estou gastando algum tempo aprendendo aprendizado de máquina (desculpe a recursão :) e não pude deixar de ficar intrigado com a regra geral de escolher Gradient Descent em vez de resolver equações diretas para calcular coeficientes de regressão, no caso de regressão linear multivariada. Regra prática: se o número de …

6
Opções de análise de dados fora do núcleo
Uso SAS profissionalmente há quase 5 anos. Eu o instalei no meu laptop e frequentemente tenho que analisar conjuntos de dados com 1.000 a 2.000 variáveis ​​e centenas de milhares de observações. Tenho procurado alternativas ao SAS que me permitam realizar análises em conjuntos de dados de tamanhos semelhantes. Estou …
18 r  sas  large-data 




5
Uma boa maneira de mostrar muitos dados graficamente
Estou trabalhando em um projeto que envolve 14 variáveis ​​e 345.000 observações para dados de habitação (itens como ano construído, metragem quadrada, preço vendido, município de residência, etc.). Estou preocupado em tentar encontrar boas técnicas gráficas e bibliotecas R que contenham boas técnicas de plotagem. Já estou vendo o que …







5
Como executar a imputação de valores em um número muito grande de pontos de dados?
Eu tenho um conjunto de dados muito grande e faltam cerca de 5% de valores aleatórios. Essas variáveis ​​estão correlacionadas entre si. O exemplo a seguir do conjunto de dados R é apenas um exemplo de brinquedo com dados correlatos simulados. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 


Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.