Estatísticas e Big Data

Perguntas e respostas para pessoas interessadas em estatística, aprendizado de máquina, análise de dados, mineração de dados e visualização de dados

2
A padronização antes de Lasso é realmente necessária?
Eu li três razões principais para padronizar variáveis ​​antes de algo como Lassoregressão: 1) Interpretabilidade dos coeficientes. 2) Capacidade de classificar a importância do coeficiente pela magnitude relativa das estimativas de coeficiente pós-retração. 3) Não há necessidade de interceptação. Mas estou pensando no ponto mais importante. Temos motivos para pensar …



1
Os graus de liberdade podem ser um número não inteiro?
Quando uso o GAM, o DF residual é (última linha do código). O que isso significa? Indo além do exemplo do GAM, em geral, o número de graus de liberdade pode ser um número não inteiro?26,626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

1
Por que a glmnet usa uma rede elástica “ingênua” do papel original da Zou & Hastie?
L =1n∥∥y-Xβ∥∥2+ λ1 1∥ β∥1 1+ λ2∥ β∥22,eu=1 1n__y-Xβ__2+λ1 1__β__1 1+λ2__β__22,\mathcal L = \frac{1}{n}\big\lVert y - X\beta\big\rVert^2 + \lambda_1\lVert \beta\rVert_1 + \lambda_2 \lVert \beta\rVert^2_2,β^∗= ( 1 + λ2) β^.β^∗=(1 1+λ2)β^.\hat\beta^* = (1+\lambda_2)\hat\beta. Entretanto, o glmnetartigo subsequente Friedman, Hastie e Tibshirani (2010) Os caminhos de regularização para modelos lineares generalizados via …




2
A semelhança de cosseno é idêntica à distância euclidiana normalizada em l2?
Idêntico significado, que irá produzir resultados idênticos para uma similaridade entre um Classificação do vetor u e um conjunto de vectores V . Eu tenho um modelo de espaço vetorial que tem como medida a distância (distância euclidiana, semelhança de cosseno) e a técnica de normalização (nenhuma, l1, l2). Pelo …




4
O que há de errado com t-SNE vs PCA para redução dimensional usando R?
Eu tenho uma matriz de números de ponto flutuante 336x256 (336 genomas bacterianos (colunas) x 256 frequências tetranucleotídicas normalizadas (linhas), por exemplo, todas as colunas somam 1). Eu obtenho bons resultados quando executo minha análise usando a análise de componentes principais. Primeiro, calculo os clusters de kmeans nos dados, depois …
27 r  pca  tsne 

17
Como descrever estatísticas em uma frase?
Quando comecei a aprender estatística, procedimentos como o teste t, ANOVA, qui-quadrado e regressão linear pareciam ser criaturas muito diferentes. Mas agora percebo que esses procedimentos fazem mais ou menos a mesma coisa. Da mesma forma, valores como variância, resíduos, erro padrão e média também medem mais ou menos a …
27 definition 


Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.