Coeficiente de regressão linear múltipla e correlação parcial estão diretamente ligados e têm a mesma significância (valor-p). R parcial é apenas outra maneira de padronizar o coeficiente, juntamente com o coeficiente beta (coeficiente de regressão padronizado) 1 . Portanto, se a variável dependente é y e os independentes são x 1 e x 2, então1yx1x2
Beta:βx1=ryx1−ryx2rx1x21−r2x1x2
Partial r:ryx1.x2=ryx1−ryx2rx1x2(1−r2yx2)(1−r2x1x2)−−−−−−−−−−−−−−−−√
Você vê que os numeradores são os mesmos, informando que ambas as fórmulas medem o mesmo efeito exclusivo de . Vou tentar explicar como as duas fórmulas são estruturalmente idênticas e como não são.x1
Suponha que você padronizou z (média 0, variação 1) todas as três variáveis. O numerador é então igual à covariância entre dois tipos de resíduos : os (a) resíduos deixados na previsão de por x 2 [ambas as variáveis padrão] e os (b) resíduos deixados na previsão de x 1 por x 2 [ambas as variáveis padrão] . Além disso, a variação dos resíduos (a) é 1 - r 2 y x 2 ; a variação dos resíduos (b) é 1 - r 2 x 1 x 2 .yx2x1x21−r2yx21−r2x1x2
A fórmula para a correlação parcial aparece então claramente a fórmula do plano simples de Pearson , conforme calculado neste caso entre os resíduos (a) e os resíduos (b): Pearson r , sabemos, é covariância dividida pelo denominador que é a média geométrica de duas variações diferentes.rr
O coeficiente beta padronizado é estruturalmente semelhante a Pearson , apenas que o denominador é a média geométrica de uma variação do próprio eu . A variância dos resíduos (a) não foi contada; foi substituído pela segunda contagem da variância de resíduos (b). Beta é, portanto, a covariância dos dois resíduos em relação à variância de um deles (especificamente, o referente ao preditor de interesse, x 1 ). Embora a correlação parcial, como já observado, seja a mesma covariância em relação à sua variação híbrida . Ambos os tipos de coeficiente são maneiras de padronizar o efeito de x 1 no meio de outros preditores.rx1x1
Algumas consequências numéricas da diferença. Se o quadrado R da regressão múltipla de por x 1 e x 2 for 1, as duas correlações parciais dos preditores com o dependente também terão 1 valor absoluto (mas os betas geralmente não serão 1). De fato, como dito anteriormente, r y x 1 . x 2 é a correlação entre os resíduos de e os resíduos de . Se o que não é x 2 dentro de y é exatamente o que não é x 2 dentro de x 1yx1x2ryx1.x2y <- x2
x1 <- x2
x2y x2x1então não há nada em que não seja x 1 nem x 2 : ajuste completo. Qualquer que seja a quantidade da porção inexplicável (em x 2 ) deixada em y (o 1 - r 2 y x 2 ), se for capturada relativamente alta pela parte independente de x 1 (pelo 1 - r 2 x 1 x 2 ), o r y x 1 . x 2 será alto. β x 1yx1x2x2y1−r2yx2x11−r2x1x2ryx1.x2βx1, por outro lado, será alto apenas desde que a porção inexplicada capturada de seja ela própria uma porção substancial de y .yy
Das fórmulas acima, obtém-se (e que se estende a partir de regressão 2-preditor para uma regressão com o número arbitrário de preditores ) A fórmula de conversão entre beta e R correspondente parcial:x1,x2,x3,...
ryx1.X=βx1var(ex1←X)var(ey←X)−−−−−−−−−−√,
where X stands for the collection of all predictors except the current (x1); ey←X are the residuals from regressing y by X, and ex1←X are the residuals from regressing x1 by X, the variables in both these regressions enter them standardized.
Note: if we need to to compute partial correlations of y with every predictor x we usually won't use this formula requiring to do two additional regressions. Rather, the sweep operations (often used in stepwise and all subsets regression algorithms) will be done or anti-image correlation matrix will be computed.
1 βx1=bx1σx1σy is the relation between the raw b and the standardized β coefficients in regression with intercept.