Estatísticas e Big Data model-selection

4

Quando são aplicáveis os resultados de Shao na validação cruzada de exclusão única?

Em seu artigo Seleção de modelo linear por validação cruzada , Jun Shao mostra que, para o problema de seleção de variáveis na regressão linear multivariada, o método de validação cruzada de sobreaquecimento (LOOCV) é 'assintoticamente inconsistente'. Em inglês simples, ele tende a selecionar modelos com muitas variáveis. Em um …

22 classification model-selection cross-validation

3

Analisar gráficos ACF e PACF

Quero ver se estou no caminho certo analisando meus gráficos ACF e PACF: Histórico: (Reff: Philip Hans Franses, 1998) Como o ACF e o PACF mostram valores significativos, presumo que um modelo ARMA atenda minhas necessidades O ACF pode ser usado para estimar a parte MA, ou seja, o valor …

21 time-series model-selection arma statsmodels

1

Seleção de modelos com regressão logística Firth

Em um pequeno conjunto de dados ( ) com o qual estou trabalhando, várias variáveis me proporcionam uma perfeita previsão / separação . Assim, uso a regressão logística Firth para lidar com o problema.n ∼ 100n∼100n\sim100 Se eu selecionar o melhor modelo por AIC ou BIC , devo incluir o …

21 logistic model-selection aic separation

2

Validação cruzada (generalização de erros) após a seleção do modelo

Nota: O caso é n >> p Estou lendo Elementos de aprendizagem estatística e há várias menções sobre a maneira "correta" de fazer a validação cruzada (por exemplo, página 60, página 245). Especificamente, minha pergunta é como avaliar o modelo final (sem um conjunto de testes separado) usando o CV …

21 machine-learning model-selection data-mining cross-validation

4

Como projetar um novo vetor no espaço PCA?

Depois de executar a análise de componentes principais (PCA), quero projetar um novo vetor no espaço do PCA (ou seja, encontrar suas coordenadas no sistema de coordenadas do PCA). Eu calculei o PCA na linguagem R usando prcomp. Agora eu devo poder multiplicar meu vetor pela matriz de rotação PCA. …

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

6

Quando descartar um termo de um modelo de regressão?

Alguém poderia aconselhar se o seguinte faz sentido: Estou lidando com um modelo linear comum com 4 preditores. Estou pensando em abandonar o termo menos significativo. O valor de é um pouco acima de 0,05. Argumentei a favor de abandoná-lo ao longo destas linhas: Multiplicar a estimativa deste termo por …

20 regression model-selection

4

Quais são os valores corretos para precisão e rechamada em casos extremos?

Precisão é definida como: p = true positives / (true positives + false positives) É verdade que, como true positivese false positivesabordagem 0, a precisão se aproxima de 1? Mesma pergunta para recall: r = true positives / (true positives + false negatives) No momento, estou implementando um teste estatístico …

20 precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

2

A regularização pode ser útil se estivermos interessados apenas na modelagem, não na previsão?

A regularização pode ser útil se estivermos interessados apenas em estimar (e interpretar) os parâmetros do modelo, e não em previsão ou previsão? Vejo como a regularização / validação cruzada é extremamente útil se seu objetivo é fazer boas previsões sobre novos dados. Mas e se você estiver fazendo economia …

19 cross-validation econometrics model-selection interpretation regularization

2

Como escolher a estrutura de efeitos aleatórios e fixos em modelos lineares mistos?

Considere os seguintes dados de uma maneira bidirecional no design de assuntos: df <- "http://personality-project.org/r/datasets/R.appendix4.data" df <- read.table(df,header=T) head(df) Observation Subject Task Valence Recall 1 1 Jim Free Neg 8 2 2 Jim Free Neu 9 3 3 Jim Free Pos 5 4 4 Jim Cued Neg 7 5 5 …

19 mixed-model repeated-measures model-selection lme4-nlme likelihood-ratio

7

Medidas de complexidade do modelo

Como podemos comparar a complexidade de dois modelos com o mesmo número de parâmetros? Edit 19/09 : Para esclarecer, a complexidade do modelo é uma medida de quão difícil é aprender com dados limitados. Quando dois modelos ajustam os dados existentes igualmente bem, um modelo com menor complexidade gera menos …

19 model-selection

1

Paradoxo na seleção de modelos (AIC, BIC, para explicar ou prever?)

Depois de ler "Explain or to Predict" (2010), de Galit Shmueli, fico intrigado com uma aparente contradição. Existem três premissas, Escolha do modelo com base no AIC versus no BIC (final da p. 300 - início da p. 301): basta colocar o AIC para selecionar um modelo destinado à previsão, …

18 forecasting model-selection feature-selection aic bic

4

Determinando a função de ajuste da curva de melhor ajuste a partir das funções linear, exponencial e logarítmica

Contexto: De uma pergunta no Mathematics Stack Exchange (Posso criar um programa) , alguém possui um conjunto de pontos e deseja ajustar uma curva linear, exponencial ou logarítmica. O método usual é começar escolhendo um destes (que especifica o modelo) e, em seguida, faça os cálculos estatísticos.x - yx-yx-y Mas …

18 regression predictive-models model-selection curve-fitting

1

A BIC tenta encontrar um modelo verdadeiro?

Esta pergunta é um acompanhamento ou tentativa de esclarecer uma possível confusão sobre um tópico que eu e muitos outros consideramos um pouco difícil, com relação à diferença entre AIC e BIC. Em uma resposta muito agradável de @Dave Kellen sobre este tópico ( /stats//a/767/30589 ), lemos: Sua pergunta implica …

17 model-selection aic bic

3

Construção e seleção de modelos usando Hosmer et al. 2013. Regressão logística aplicada em R

Esta é a minha primeira postagem no StackExchange, mas eu a uso como um recurso há um bom tempo, farei o possível para usar o formato apropriado e fazer as edições apropriadas. Além disso, esta é uma pergunta com várias partes. Eu não tinha certeza se deveria dividir a pergunta …

17 r logistic model-selection regression-strategies

1

Os padrões residuais autocorrelacionados permanecem mesmo em modelos com estruturas de correlação apropriadas, e como selecionar os melhores modelos?

Contexto Esta pergunta usa R, mas trata de questões estatísticas gerais. Estou analisando os efeitos dos fatores de mortalidade (% de mortalidade por doenças e parasitismo) na taxa de crescimento populacional da mariposa ao longo do tempo, onde populações de larvas foram amostradas de 12 locais uma vez por ano …

17 model-selection autocorrelation residuals panel-data spatio-temporal

Perguntas com a marcação «model-selection»