Fórmula para intervalo de confiança de 95% para

Pesquisei no google e pesquisei stats.stackexchange, mas não consigo encontrar a fórmula para calcular um intervalo de confiança de 95% para um $R^2$ valor para uma regressão linear. Alguém pode fornecer?

Melhor ainda, digamos que eu executei a regressão linear abaixo em R. Como eu calcularia um intervalo de confiança de 95% para o valor de $R^2$ usando o código R.

lm_mtcars <- lm(mpg ~ wt, mtcars)

— luciano
fonte

Bem, você sabe a relação entre a correlação

é que você está em quadratura com o coeficiente de correlação para obter

então porque não calcular o intervalo de confiança para

e, em seguida, quadrado dos limites inferior e superior do intervalo?

r

$r$

R^{2}

$R^2$

R^{2}

$R^2$

r

$r$

@ Zero: que funcionará em uma regressão linear simples, ou seja, com um único preditor e uma interceptação. Não funcionará para regressão linear múltipla com mais de um preditor.

— #

@StephanKolassa, very true! Acho que estava baseando-o no Rcódigo dele , onde há apenas um regressor, mas esse é um ponto muito bom para esclarecer.

danielsoper.com/statcalc/formulas.aspx?id=28

— Curioso

Você pode, por exemplo, usar uma função R muito pequena github.com/mayer79/R-confidence-intervals-R-squared com base nas propriedades da distribuição F não central.

— Michael M

Respostas:

Você sempre pode inicializá-lo:

> library(boot)
> foo <- boot(mtcars,function(data,indices)
        summary(lm(mpg~wt,data[indices,]))$r.squared,R=10000)

> foo$t0
[1] 0.7528328

> quantile(foo$t,c(0.025,0.975))
     2.5%     97.5% 
0.6303133 0.8584067

Carpenter & Bithell (2000, Statistics in Medicine) fornecer uma introdução legível para bootstrapping intervalos de confiança, focada embora não especificamente em . $R^2$

— Stephan Kolassa
fonte

(1) Pode ser interessante que a fórmula aproximada citado por @Durden, com

dá o intervalo

. Seria quase perfeitamente correto se reduzíssemos o fator

multiplicando o SE nessa fórmula!

n = 32

$n=32$

k = 1

$k=1$

(0.546, 0.960)

$(0.546,0.960)$

2

$2$

— whuber

Também pode ser interessante notar que você pode obter outros tipos de intervalo de confiança (por exemplo, BCa) a partir da distribuição de reamostragem de bootstrap usando boot.ci().

— Jeffrey Girard

Em R, você pode fazer uso da CI.Rsq()função fornecida pelo pacote psicométrico . Quanto à fórmula que se aplica, veja Cohen et al. (2003) , Análise de regressão múltipla / correlação aplicada para as ciências do comportamento , p. 88:

$SE_{R^{2}} = \sqrt{\frac{4R^{2}(1-R^{2})^{2}(n-k-1)^{2}}{(n^2 - 1)(n+3)}}$

Then, the 95% CI is your $R^{2} \pm 2 \cdot SE_{R^{2}}$ .

— Durden
fonte

(1)

(1 - R^{2})

$(1-R^2)$ is squared in your reference. (2) It is important to note that "

R^{2}

$R^2$ " is intended to be the sample value rather than the population value (which clearly is what "

R^{2}

$R^2$ " refers to in the question, whence the potential for confusion). (3) It is also important that this is only an asymptotic ("large-sample") result, giving "adequate approximations" for "

n - k - 1 > 60

$n-k-1 \gt 60$ ". (I believe

k + 1

$k+1$ counts an intercept plus the number of independent variables.) It would be useful to see a worked example supported by simulation, because this interval looks too wide.

— whuber

According to Wishart (1931) the formula is unsuitable for nonnormal distributions.

— abukaj