Estatísticas e Big Data multiple-regression

1

Digamos que eu tenho três conjuntos de dados de tamanho cada:nnn = alturas de pessoas apenas dos EUAy1y1y_1 = alturas de homens de todo o mundoy2y2y_2 = alturas das mulheres de todo o mundoy3y3y_3 E eu construir um modelo linear para cada com fatores , i = 1 , . …

8 regression multiple-regression ensemble aggregation

2

Por que algumas estimativas de regressão diferem por uma mudança de sinal, mas outras não, quando eu mudo o nível de referência?

Suponha que eu tenha um resultado contínuo ye dois fatores preditores fatoriais, cada um com dois níveis. Um dos meus preditores categóricos,, drugpode ter dois níveis ("A" ou "B"), o outro é smokeYes. Quando executo um modelo de regressão, posso escolher a linha de base ou o nível de referência …

8 regression anova multiple-regression contrasts

3

Encontre distribuição e transforme em distribuição normal

Eu tenho dados que descrevem com que frequência um evento ocorre durante uma hora ("número por hora", nph) e quanto tempo os eventos duram ("duração em segundos por hora", dph). Estes são os dados originais: nph <- c(2.50000000003638, 3.78947368414551, 1.51456310682008, 5.84686774940732, 4.58823529414907, 5.59999999993481, 5.06666666666667, 11.6470588233699, 1.99999999998209, NA, 4.46153846149851, 18, 1.05882352939726, …

8 normal-distribution data-transformation logistic generalized-linear-model ridge-regression t-test wilcoxon-signed-rank paired-data naive-bayes distributions logistic goodness-of-fit time-series eviews ecm panel-data reliability psychometrics validity cronbachs-alpha self-study random-variable expected-value median regression self-study multiple-regression linear-model forecasting prediction-interval normal-distribution excel bayesian multivariate-analysis modeling predictive-models canonical-correlation rbm time-series machine-learning neural-networks fishers-exact factorisation-theorem svm prediction linear reinforcement-learning cdf probability-inequalities ecdf time-series kalman-filter state-space-models dynamic-regression index-decomposition sampling stratification cluster-sample survey-sampling distributions maximum-likelihood gamma-distribution

1

Modelando taxas de mortalidade usando regressão de Poisson

Estou examinando tendências (entre 1998 e 2011) nas taxas de mortalidade entre pacientes com doença de Crohn. Cada paciente (caso) foi incluído entre 1998 e 2011. Na inclusão, cada paciente foi comparado a um controle saudável com a mesma idade e sexo. Estou analisando tendências nas taxas de mortalidade. Ao …

8 regression multiple-regression survival poisson-regression

2

Por que um modelo estatístico superajustaria se recebesse um grande conjunto de dados?

Meu projeto atual pode exigir que eu construa um modelo para prever o comportamento de um determinado grupo de pessoas. o conjunto de dados de treinamento contém apenas 6 variáveis (id é apenas para fins de identificação): id, age, income, gender, job category, monthly spend em que monthly spendé a …

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

4

Regressão de dados que inclui uma data

Eu tenho um conjunto de dados que contém algumas centenas de transações de três fornecedores que operam em mais de 100 países durante um período de três anos. Descobrimos que o país de vendas não é um fator significativo nos preços alcançados (os produtos são mais ou menos commodities globais). …

8 r time-series multiple-regression

1

Se você executar a regressão OLS em dados de seção transversal, deverá testar a autocorrelação em resíduos?

Eu tenho um conjunto de observações, independente do tempo. Gostaria de saber se devo executar algum teste de autocorrelação? Parece-me que não faz sentido, uma vez que não há componente de tempo nos meus dados. No entanto, na verdade, tentei o teste LM de correlação serial e indica forte autocorrelação …

8 multiple-regression least-squares autocorrelation residuals cross-section

1

Codificação fictícia para contrastes: 0,1 vs. 1, -1

Estou procurando sua ajuda para entender a diferença entre dois contrastes diferentes para variáveis dicotômicas. Nesta página: http://www.psychstat.missouristate.edu/multibook/mlt08.htm em "Variáveis preditivas dicotômicas", existem duas maneiras de codificar preditores dicotômicos: usando o contraste 0,1 ou o contraste 1, -1 . Eu meio que entendo a distinção aqui (0,1 é codificação fictícia …

8 multiple-regression categorical-data categorical-encoding

3

Teste post hoc em uma ANOVA de design misto 2x3 usando SPSS?

Eu tenho dois grupos de 10 participantes que foram avaliados três vezes durante um experimento. Para testar as diferenças entre os grupos e nas três avaliações, executei um ANOVA de desenho misto 2x3 com group(controle, experimental), time(primeiro, segundo, três) e group x time. Ambos timee groupresultaram significativos, além de haver …

8 anova mixed-model spss post-hoc bonferroni time-series unevenly-spaced-time-series classification normal-distribution discriminant-analysis probability normal-distribution estimation sampling classification svm terminology pivot-table random-generation self-study estimation sampling estimation categorical-data maximum-likelihood excel least-squares instrumental-variables 2sls total-least-squares correlation self-study variance unbiased-estimator bayesian mixed-model ancova statistical-significance references p-value fishers-exact probability monte-carlo particle-filter logistic predictive-models modeling interaction survey hypothesis-testing multiple-regression regression variance data-transformation residuals minitab r time-series forecasting arima garch correlation estimation least-squares bias pca predictive-models genetics sem partial-least-squares nonparametric ordinal-data wilcoxon-mann-whitney bonferroni wilcoxon-signed-rank traminer regression econometrics standard-error robust misspecification r probability logistic generalized-linear-model r-squared effect-size gee ordered-logit bayesian classification svm kernel-trick nonlinear bayesian pca dimensionality-reduction eigenvalues probability distributions mathematical-statistics estimation nonparametric kernel-smoothing expected-value filter mse time-series correlation data-visualization clustering estimation predictive-models recommender-system sparse hypothesis-testing data-transformation parametric probability summations correlation pearson-r spearman-rho bayesian replicability dimensionality-reduction discriminant-analysis outliers weka

1

Linhas retas paralelas na plotagem residual vs ajustada

Eu tenho um problema de regressão múltipla, que tentei resolver usando a regressão múltipla simples: model1 <- lm(Y ~ X1 + X2 + X3 + X4 + X5, data=data) Isso parece explicar os 85% de variação (de acordo com o quadrado do R) que parece muito bom. No entanto, o …

8 r regression multiple-regression

1

Intervalos de confiança ao usar o teorema de Bayes

Estou computando algumas probabilidades condicionais e intervalos de confiança associados a 95%. Para muitos de meus casos, tenho contagens diretas de xsucessos fora dos ntestes (de uma tabela de contingência), para que eu possa usar um intervalo de confiança binomial, como é fornecido por binom.confint(x, n, method='exact')in R. Em outros …

8 r bayesian confidence-interval conditional-probability hidden-markov-model segmentation hypothesis-testing statistical-significance multiple-comparisons multiple-regression r regression survey sample finite-population pca model-selection dataset partitioning clustering time-series least-squares regression standard-error causality r time-series outliers missing-data machine-learning svm hypothesis-testing discrete-data r data-visualization survey likert finance regression pca feature-selection stepwise-regression underdetermined svm natural-language

4

O que devo saber ao usar a regressão múltipla para encontrar relacionamentos “causais” nos meus dados?

Antes de tudo, percebo que a regressão múltipla não fornece realmente inferências "causais" sobre os dados. Deixe-me explicar meu caso atual: Eu tenho quatro variáveis independentes que espero (mas não tenho certeza) envolvidas na condução do que estou medindo. Eu queria usar a regressão múltipla para ver quanto cada uma …

8 multivariate-analysis multiple-regression

2

Séries temporais com vários assuntos e múltiplas variáveis

Sou desenvolvedor web e estatístico iniciante. Meus dados são mais ou menos assim Subject Week x1 x2 x3 x4 x5 y1 A 1 .5 .6 .7 .8 .7 10 B 1 .3 .6 .2 .1 .3 8 C 1 .3 .1 .2 .3 .2 6 A 2 .1 .9 1.5 …

8 r regression time-series multiple-regression python

3

Interpretação do coeficiente em um modelo de regressão linear com variáveis categóricas

Vou dar meus exemplos com chamadas R. Primeiro, um exemplo simples de regressão linear com uma variável dependente 'vida útil' e duas variáveis explicativas contínuas. data.frame(height=runif(4000,160,200))->human.life human.life$weight=runif(4000,50,120) human.life$lifespan=sample(45:90,4000,replace=TRUE) summary(lm(lifespan~1+height+weight,data=human.life)) Call: lm(formula = lifespan ~ 1 + height + weight, data = human.life) Residuals: Min 1Q Median 3Q Max -23.0257 -11.9124 …

8 r multiple-regression interpretation regression-coefficients

1

interpretação de betareg coef

Eu tenho um dado que onde o resultado é a proporção de uma espécie observada em uma área por uma máquina em 2 dias separados. Como o resultado é uma proporção e não inclui 0 ou 1, usei uma regressão beta para ajustar-se ao modelo. A temperatura é usada como …

8 regression logistic multiple-regression beta-regression

Perguntas com a marcação «multiple-regression»