Estatísticas e Big Data regression

2

Explicação lúcida para “estabilidade numérica da inversão da matriz” na regressão de crista e seu papel na redução do excesso de ajuste

Entendo que podemos empregar regularização em um problema de regressão de mínimos quadrados como w∗=argminw[(y−Xw)T(y−Xw)+λ∥w∥2]w∗=argminw⁡[(y−Xw)T(y−Xw)+λ‖w‖2]\boldsymbol{w}^* = \operatorname*{argmin}_w \left[ (\mathbf y-\mathbf{Xw})^T(\boldsymbol{y}-\mathbf{Xw}) + \lambda\|\boldsymbol{w}\|^2 \right] e que esse problema tem uma solução de formulário fechado como: w^=(XTX+λI)−1XTy.w^=(XTX+λI)−1XTy.\hat{\boldsymbol{w}} = (\boldsymbol{X}^T\boldsymbol{X}+\lambda\boldsymbol{I})^{-1}\boldsymbol{X}^T\boldsymbol{y}. Vemos que na 2ª equação, a regularização está simplesmente adicionando λλ\lambda à diagonal …

10 regression regularization ridge-regression overfitting matrix-inverse

2

Tendências da taxa de sobrevivência em estudos de caso-controle

Enviei um artigo que foi rejeitado devido à maneira inadequada de realizar a análise de sobrevivência. O árbitro não deixou outros detalhes ou explicações além de: "a análise da sobrevivência nas tendências do tempo requer maneiras mais sofisticadas de censurar". A questão: O risco excessivo de morte entre fumantes foi …

10 regression survival incidence-rate-ratio interval-censoring

3

relação entre de regressão simples e regressão múltipla

Uma questão muito básica relativa aos das regressões OLSR2R2R^2 executar a regressão OLS y ~ x1, temos um , digamos 0,3R2R2R^2 executar a regressão OLS y ~ x2, temos outro , digamos 0,4R2R2R^2 agora executamos uma regressão y ~ x1 + x2, que valor pode ser o R ao quadrado …

10 regression multiple-regression least-squares r-squared

2

Avaliar a distribuição preditiva posterior na regressão linear bayesiana

Estou confuso sobre como avaliar a distribuição preditiva posterior da regressão linear bayesiana, além do caso básico descrito aqui na página 3 e copiado abaixo. p ( y~| y) = ∫p ( y~∣ β, σ2) p ( β, σ2| y)p(y~∣y)=∫p(y~∣β,σ2)p(β,σ2∣y) p(\tilde y \mid y) = \int p(\tilde y \mid \beta, …

10 regression bayesian predictive-models prediction posterior

5

Usar decis para encontrar a correlação é uma abordagem estatisticamente válida?

Eu tenho uma amostra de 1.449 pontos de dados que não estão correlacionados (r ao quadrado 0,006). Ao analisar os dados, descobri que, dividindo os valores das variáveis independentes em grupos positivo e negativo, parece haver uma diferença significativa na média da variável dependente para cada grupo. Dividindo os pontos …

10 regression correlation linear-model r-squared

2

Regressão logística e variáveis independentes ordinais

Eu encontrei este post: Sim. O coeficiente reflete a alteração nas chances de log para cada incremento de alteração no preditor ordinal. Essa especificação de modelo (muito comum) pressupõe que o preditor tenha um impacto linear em seus incrementos. Para testar a suposição, você pode comparar um modelo no qual …

10 regression logistic references ordinal-data

3

Como obter valores p dos coeficientes a partir da regressão de bootstrap?

No Quick-R de Robert Kabacoff, tenho # Bootstrap 95% CI for regression coefficients library(boot) # function to obtain regression weights bs <- function(formula, data, indices) { d <- data[indices,] # allows boot to select sample fit <- lm(formula, data=d) return(coef(fit)) } # bootstrapping with 1000 replications results <- boot(data=mtcars, statistic=bs, …

10 r regression p-value bootstrap

1

Qual modelo de regressão com inicialização inicial devo escolher?

Eu tenho um modelo de regressão logística binária com um DV (doença: sim / não) e 5 preditores (dados demográficos [idade, sexo, tabagismo (sim / não)], um índice médico (ordinal) e um tratamento aleatório [sim / não ]). Também modelei todos os termos de interação bilateral. As principais variáveis estão …

10 regression logistic multiple-regression bootstrap

4

Modelo de Histórico de Eventos em Tempo Discreto (Sobrevivência) em R

Estou tentando ajustar um modelo de tempo discreto no R, mas não sei como fazê-lo. Eu li que você pode organizar a variável dependente em linhas diferentes, uma para cada observação no tempo, e usar a glmfunção com um link logit ou cloglog. Neste sentido, tem três colunas: ID, Event(1 …

10 r survival pca sas matlab neural-networks r logistic spatial spatial-interaction-model r time-series econometrics var statistical-significance t-test cross-validation sample-size r regression optimization least-squares constrained-regression nonparametric ordinal-data wilcoxon-signed-rank references neural-networks jags bugs hierarchical-bayesian gaussian-mixture r regression svm predictive-models libsvm scikit-learn probability self-study stata sample-size spss wilcoxon-mann-whitney survey ordinal-data likert group-differences r regression anova mathematical-statistics normal-distribution random-generation truncation repeated-measures variance variability distributions random-generation uniform regression r generalized-linear-model goodness-of-fit data-visualization r time-series arima autoregressive confidence-interval r time-series arima autocorrelation seasonality hypothesis-testing bayesian frequentist uninformative-prior correlation matlab cross-correlation

1

Eficiência de regressão de Kernel Ridge

A regressão de cume pode ser expressa como que é o rótulo previsto , o identificar matriz, o objeto que está tentando encontrar um rótulo para e o matriz de objetos tal que:y^=(X′X+aId)−1Xxy^=(X′X+aId)−1Xx\hat{y} = (\mathbf{X'X} + a\mathbf{I}_d)^{-1}\mathbf{X}x Iddxdxxnxdnxi=(xi,1,...,Xi,d)∈Rdy^y^\hat{y}IdId\mathbf{I}_dd×dd×dd \times dxx\mathbf{x}XX\mathbf{X}n×dn×dn \times dnnnxi=(xi,1,...,xi,d)∈Rdxi=(xi,1,...,xi,d)∈Rd\mathbf{x}_i = (x_{i,1}, ..., x_{i,d})\in \mathbb{R}^d X = ⎛⎝⎜⎜⎜⎜⎜x1 …

10 regression ridge-regression kernel-trick

3

Faixa possível de

Suponha que haja três séries temporais, , eX1X1X_1X2X2X_2YYY Correndo regressão linear ordinária em ~ ( ), obtemos . A regressão linear ordinária ~ obter . AssumaYYYX1X1X_1Y=bX1+b0+ϵY=bX1+b0+ϵY = b X_1 + b_0 + \epsilonR2=UR2=UR^2 = UYYYX2X2X_2R2=VR2=VR^2 = VU<VU<VU < V Quais são os valores mínimos e máximos possíveis de na regressão …

10 regression multiple-regression r-squared

1

É aceitável executar dois modelos lineares no mesmo conjunto de dados?

Para uma regressão linear com vários grupos (grupos naturais definidos a priori) é aceitável executar dois modelos diferentes no mesmo conjunto de dados para responder às duas perguntas a seguir? Cada grupo tem uma inclinação diferente de zero e intercepto diferente de zero e quais são os parâmetros para cada …

10 r regression multiple-comparisons inference ancova

1

Variável categórica de regressão linear R valor "oculto"

Este é apenas um exemplo que encontrei várias vezes, portanto não tenho dados de amostra. Executando um modelo de regressão linear em R: a.lm = lm(Y ~ x1 + x2) x1é uma variável contínua. x2é categórico e possui três valores, por exemplo, "Baixo", "Médio" e "Alto". No entanto, a saída …

10 r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

2

Floresta aleatória em dados agrupados

Estou usando floresta aleatória em dados agrupados de alta dimensão (50 variáveis numéricas de entrada) que possuem uma estrutura hierárquica. Os dados foram coletados com 6 repetições em 30 posições de 70 objetos diferentes, resultando em 12600 pontos de dados, que não são independentes. Parece que a floresta aleatória está …

10 regression random-forest

1

vcovHC, vcovHAC, NeweyWest - qual função usar?

Estou tentando atualizar meu modelo baseado em lm () para obter erros e testes padrão corretos. Estou realmente confuso qual matriz de VC usar. O sandwichpacote oferece vcovHC, vcovHACe NeweyWest. Enquanto o primeiro é responsável apenas pela heterocedasticidade, os dois últimos são responsáveis pela correlação serial e pela heterocedasticidade. No …

10 regression time-series neweywest

Perguntas com a marcação «regression»