Estatísticas e Big Data

2

A padronização antes de Lasso é realmente necessária?

Eu li três razões principais para padronizar variáveis antes de algo como Lassoregressão: 1) Interpretabilidade dos coeficientes. 2) Capacidade de classificar a importância do coeficiente pela magnitude relativa das estimativas de coeficiente pós-retração. 3) Não há necessidade de interceptação. Mas estou pensando no ponto mais importante. Temos motivos para pensar …

28 normalization lasso standardization regularization shrinkage

5

Sobregravando um modelo de regressão logística

É possível superajustar um modelo de regressão logística? Vi um vídeo dizendo que, se minha área sob a curva ROC for superior a 95%, é muito provável que ela esteja excessivamente ajustada, mas é possível ajustar demais um modelo de regressão logística?

28 logistic overfitting regression-strategies

1

Deborah Mayo refutou a prova de Birnbaum do princípio da verossimilhança?

Isso está um pouco relacionado à minha pergunta anterior aqui: Um exemplo em que o princípio da probabilidade * realmente * importa? Aparentemente, Deborah Mayo publicou um artigo na Statistical Science refutando a prova de Birnbaum do princípio da probabilidade. Alguém pode explicar o argumento principal de Birnbaum e o …

27 mathematical-statistics likelihood-principle

1

Os graus de liberdade podem ser um número não inteiro?

Quando uso o GAM, o DF residual é (última linha do código). O que isso significa? Indo além do exemplo do GAM, em geral, o número de graus de liberdade pode ser um número não inteiro?26,626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

1

Por que a glmnet usa uma rede elástica “ingênua” do papel original da Zou & Hastie?

L =1n∥∥y-Xβ∥∥2+ λ1 1∥ β∥1 1+ λ2∥ β∥22,eu=1 1n__y-Xβ__2+λ1 1__β__1 1+λ2__β__22,\mathcal L = \frac{1}{n}\big\lVert y - X\beta\big\rVert^2 + \lambda_1\lVert \beta\rVert_1 + \lambda_2 \lVert \beta\rVert^2_2,β^∗= ( 1 + λ2) β^.β^∗=(1 1+λ2)β^.\hat\beta^* = (1+\lambda_2)\hat\beta. Entretanto, o glmnetartigo subsequente Friedman, Hastie e Tibshirani (2010) Os caminhos de regularização para modelos lineares generalizados via …

27 regression regularization glmnet elastic-net shrinkage

2

Quanto câncer de pulmão é realmente causado pelo fumo? [fechadas]

Nos produtos de tabaco, pode-se ver frequentemente a estatística de que nove em cada dez cânceres de pulmão são causados pelo fumo, mas esse número é exato? Sou cético em relação a esta estatística por dois motivos. Primeiramente , se você comparar as taxas de consumo de cigarro ao longo …

27 epidemiology population-attributable-fraction

3

A origem do termo "regularização"

Quando eu introduzo conceitos para meus alunos, geralmente acho divertido dizer a eles onde a terminologia se origina ("regressão", por exemplo, é um termo com uma origem interessante). Não consegui descobrir o histórico / plano de fundo do termo "regularização" em estatística / aprendizado de máquina. Então, qual é a …

27 terminology regularization history tikhonov-regularization

3

Os modelos de aprendizado profundo não podem agora ser interpretados? Os nós são recursos?

Para modelos estatísticos e de aprendizado de máquina, existem vários níveis de interpretabilidade: 1) o algoritmo como um todo, 2) partes do algoritmo em geral 3) partes do algoritmo em entradas específicas, e esses três níveis divididos em duas partes cada, um para treinamento e outro para avaliação de função. …

27 neural-networks deep-learning interpretation

2

A semelhança de cosseno é idêntica à distância euclidiana normalizada em l2?

Idêntico significado, que irá produzir resultados idênticos para uma similaridade entre um Classificação do vetor u e um conjunto de vectores V . Eu tenho um modelo de espaço vetorial que tem como medida a distância (distância euclidiana, semelhança de cosseno) e a técnica de normalização (nenhuma, l1, l2). Pelo …

27 normalization natural-language euclidean cosine-distance cosine-similarity

9

Quando a correlação pode ser útil sem causalidade?

Um ditado popular de muitos estatísticos é "Correlação não implica causalidade". Isso certamente é verdade, mas uma coisa que parece implícita aqui é que a correlação tem pouco ou nenhum valor. Isso é verdade? É inútil ter conhecimento de que duas variáveis estão correlacionadas? Não consigo imaginar que seja esse …

27 correlation predictive-models causality

2

Por que os passeios aleatórios são correlacionados?

Eu observei que, em média, o valor absoluto do coeficiente de correlação de Pearson é uma constante próxima a qualquer par de passeios aleatórios independentes, independentemente do comprimento do passeio.0.560.42 Alguém pode explicar esse fenômeno? Eu esperava que as correlações diminuíssem à medida que o comprimento da caminhada aumenta, como …

27 time-series correlation stationarity random-walk

6

O que significa 'altamente não linear'?

Costumo ler sobre uma função ser 'altamente não linear'. No meu entendimento, há "linear" e "não linear", então o que é isso 'altamente'? Existe uma diferença formal de não linear? Como é definido?

27 terminology nonlinear mathematical-statistics

4

O que há de errado com t-SNE vs PCA para redução dimensional usando R?

Eu tenho uma matriz de números de ponto flutuante 336x256 (336 genomas bacterianos (colunas) x 256 frequências tetranucleotídicas normalizadas (linhas), por exemplo, todas as colunas somam 1). Eu obtenho bons resultados quando executo minha análise usando a análise de componentes principais. Primeiro, calculo os clusters de kmeans nos dados, depois …

27 r pca tsne

17

Como descrever estatísticas em uma frase?

Quando comecei a aprender estatística, procedimentos como o teste t, ANOVA, qui-quadrado e regressão linear pareciam ser criaturas muito diferentes. Mas agora percebo que esses procedimentos fazem mais ou menos a mesma coisa. Da mesma forma, valores como variância, resíduos, erro padrão e média também medem mais ou menos a …

27 definition

5

Uma série temporal é igual a um processo estocástico?

Um processo estocástico é um processo que evolui com o tempo, então é realmente uma maneira mais extravagante de dizer "séries temporais"?

27 time-series stochastic-processes definition