"Correlação" também significa a inclinação na análise de regressão?

14

Estou lendo um artigo e o autor escreveu:

O efeito de A, B, C em Y foi estudado através do uso de análise de regressão múltipla. A, B, C foram inseridos na equação de regressão com Y como a variável dependente. A análise de variância é apresentada na Tabela 3. O efeito de B em Y foi significativo, com B correlacionando 0,27 com Y.

O inglês não é minha língua materna e fiquei muito confuso aqui.

Primeiro, ele disse que faria uma análise de regressão e depois nos mostrou a análise de variância. Por quê?

E então ele escreveu sobre o coeficiente de correlação, não é da análise de correlação? Ou essa palavra também pode ser usada para descrever a inclinação da regressão?

regression correlation terminology

— yue86231
fonte

17

Primeiro, ele disse que faria uma análise de regressão e depois nos mostrou a análise de variância. Por quê?

Análise de variância (ANOVA) é apenas uma técnica que compara a variação explicada pelo modelo versus a variação não explicada pelo modelo. Como os modelos de regressão têm o componente explicado e o inexplicado, é natural que a ANOVA possa ser aplicada a eles. Em muitos pacotes de software, os resultados da ANOVA são relatados rotineiramente com regressão linear. A regressão também é uma técnica muito versátil. De fato, o teste t e a ANOVA podem ser expressos em forma de regressão; eles são apenas um caso especial de regressão.

Por exemplo, aqui está um exemplo de saída de regressão. O resultado é milhas por galão de alguns carros e a variável independente é se o carro era doméstico ou estrangeiro:

      Source |       SS       df       MS              Number of obs =      74
-------------+------------------------------           F(  1,    72) =   13.18
       Model |  378.153515     1  378.153515           Prob > F      =  0.0005
    Residual |  2065.30594    72  28.6848048           R-squared     =  0.1548
-------------+------------------------------           Adj R-squared =  0.1430
       Total |  2443.45946    73  33.4720474           Root MSE      =  5.3558

------------------------------------------------------------------------------
         mpg |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
   1.foreign |   4.945804   1.362162     3.63   0.001     2.230384    7.661225
       _cons |   19.82692   .7427186    26.70   0.000     18.34634    21.30751
------------------------------------------------------------------------------

Você pode ver a ANOVA relatada no canto superior esquerdo. A estatística F geral é 13,18, com um valor p de 0,0005, indicando que o modelo é preditivo. E aqui está a saída ANOVA:

                       Number of obs =      74     R-squared     =  0.1548
                       Root MSE      = 5.35582     Adj R-squared =  0.1430

              Source |  Partial SS    df       MS           F     Prob > F
          -----------+----------------------------------------------------
               Model |  378.153515     1  378.153515      13.18     0.0005
                     |
             foreign |  378.153515     1  378.153515      13.18     0.0005
                     |
            Residual |  2065.30594    72  28.6848048   
          -----------+----------------------------------------------------
               Total |  2443.45946    73  33.4720474

Observe que você pode recuperar as mesmas estatísticas F e valor p lá.

E então ele escreveu sobre o coeficiente de correlação, não é da análise de correlação? Ou essa palavra também pode ser usada para descrever a inclinação da regressão?

Supondo que a análise envolvesse apenas B e Y, tecnicamente eu não concordaria com a escolha da palavra. Na maioria dos casos, o declive e o coeficiente de correlação não podem ser usados de forma intercambiável. Em um caso especial, essas duas são as mesmas, ou seja, quando as variáveis independentes e dependentes são padronizadas (também conhecidas como unidade de escore z).

Por exemplo, vamos correlacionar milhas por galão e o preço do carro:

             |    price      mpg
-------------+------------------
       price |   1.0000
         mpg |  -0.4686   1.0000

E aqui está o mesmo teste, usando as variáveis padronizadas, você pode ver o coeficiente de correlação permanece inalterado:

             |  sdprice    sdmpg
-------------+------------------
     sdprice |   1.0000
       sdmpg |  -0.4686   1.0000

Agora, aqui estão os dois modelos de regressão usando as variáveis originais:

. reg mpg price

      Source |       SS       df       MS              Number of obs =      74
-------------+------------------------------           F(  1,    72) =   20.26
       Model |  536.541807     1  536.541807           Prob > F      =  0.0000
    Residual |  1906.91765    72  26.4849674           R-squared     =  0.2196
-------------+------------------------------           Adj R-squared =  0.2087
       Total |  2443.45946    73  33.4720474           Root MSE      =  5.1464

------------------------------------------------------------------------------
         mpg |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
       price |  -.0009192   .0002042    -4.50   0.000    -.0013263   -.0005121
       _cons |   26.96417   1.393952    19.34   0.000     24.18538    29.74297
------------------------------------------------------------------------------

... e aqui está aquele com variáveis padronizadas:

. reg sdmpg sdprice

      Source |       SS       df       MS              Number of obs =      74
-------------+------------------------------           F(  1,    72) =   20.26
       Model |  16.0295482     1  16.0295482           Prob > F      =  0.0000
    Residual |  56.9704514    72  .791256269           R-squared     =  0.2196
-------------+------------------------------           Adj R-squared =  0.2087
       Total |  72.9999996    73  .999999994           Root MSE      =  .88953

------------------------------------------------------------------------------
       sdmpg |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
     sdprice |  -.4685967   .1041111    -4.50   0.000    -.6761384   -.2610549
       _cons |  -7.22e-09   .1034053    -0.00   1.000    -.2061347    .2061347
------------------------------------------------------------------------------

Como você pode ver, a inclinação das variáveis originais é -0.0009192 e a inclinação com variáveis padronizadas é -0.4686, que também é o coeficiente de correlação.

Portanto, a menos que A, B, C e Y sejam padronizados, eu não concordaria com a "correlação" do artigo. Em vez disso, eu optaria por um aumento de uma unidade em B associado à média de Y sendo 0,27 maior.

Em situações mais complicadas, onde mais de uma variável independente está envolvida, o fenômeno descrito acima não será mais verdadeiro.

— Penguin_Knight
fonte

7

Primeiro, ele disse que faria uma análise de regressão e depois nos mostrou a análise de variância. Por quê?

A tabela de análise de variância é um resumo de parte das informações que você pode obter da regressão. (O que você pode considerar uma análise de variância é um caso especial de regressão. Em ambos os casos, você pode particionar a soma dos quadrados em componentes que podem ser usados para testar várias hipóteses, e isso é chamado de tabela de análise de variância.)

E então ele escreveu sobre o coeficiente de correlação, não é da análise de correlação? Ou essa palavra também pode ser usada para descrever a inclinação da regressão?

A correlação não é a mesma coisa que a inclinação da regressão, mas as duas estão relacionadas. No entanto, a menos que eles deixem uma palavra (ou talvez várias palavras) de fora, a correlação pareada de B com Y não informa diretamente sobre o significado da inclinação na regressão múltipla. Em uma regressão simples, os dois estão diretamente relacionados, e esse relacionamento se mantém. Na regressão múltipla, correlações parciais são relacionadas a declives da maneira correspondente.

— Glen_b -Reinstate Monica
fonte

4

Estou fornecendo códigos em R apenas um exemplo, você pode ver respostas apenas se não tiver experiência com R. Só quero fazer alguns casos com exemplos.

correlação vs regressão

Correlação e regressão linear simples com um Y e um X:

O modelo:

y = a + betaX + error (residual)

Digamos que temos apenas duas variáveis:

X = c(4,5,8,6,12,15)
Y = c(3,6,9,8,6, 18)
plot(X,Y, pch = 19)

Em um diagrama de dispersão, quanto mais próximos os pontos estiverem de uma linha reta, mais forte será a relação linear entre duas variáveis.

insira a descrição da imagem aqui

Vamos ver a correlação linear.

cor(X,Y)
0.7828747

Agora regressão linear e valores de R extraídos ao quadrado .

    reg1 <- lm(Y~X)
   summary(reg1)$r.squared
     0.6128929

Assim, os coeficientes do modelo são:

reg1$coefficients
(Intercept)           X 
  2.2535971   0.7877698

A beta para X é 0,7877698. Assim, nosso modelo será:

  Y = 2.2535971 + 0.7877698 * X

A raiz quadrada do valor do quadrado R na regressão é igual rà regressão linear.

sqrt(summary(reg1)$r.squared)
[1] 0.7828747

Vamos ver o efeito de escala na inclinação e na correlação de regressão usando o mesmo exemplo acima e multiplicar Xcom uma palavra constante 12.

    X = c(4,5,8,6,12,15)
    Y = c(3,6,9,8,6, 18)
    X12 <- X*12

    cor(X12,Y)
   [1] 0.7828747

A correlação permanece inalterada, assim como R ao quadrado .

    reg12 <- lm(Y~X12)
    summary(reg12)$r.squared
     [1] 0.6128929
     reg12$coefficients
(Intercept)         X12 
 0.53571429  0.07797619

Você pode ver os coeficientes de regressão alterados, mas não o quadrado R. Agora, outro experimento permite adicionar uma constante Xe ver o que isso terá efeito.

    X = c(4,5,8,6,12,15)
    Y = c(3,6,9,8,6, 18)
    X5 <- X+5

    cor(X5,Y)
   [1] 0.7828747

A correlação ainda não é alterada após a adição 5. Vamos ver como isso terá efeito nos coeficientes de regressão.

        reg5 <- lm(Y~X5)
        summary(reg5)$r.squared
         [1] 0.6128929
         reg5$coefficients
(Intercept)          X5 
 -4.1428571   0.9357143

O quadrado R e a correlação não têm efeito de escala, mas interceptação e inclinação. Portanto, a inclinação não é igual ao coeficiente de correlação (a menos que as variáveis sejam padronizadas com média 0 e variância 1).

o que é ANOVA e por que fazemos ANOVA?

ANOVA é uma técnica em que comparamos variações para tomar decisões. A variável de resposta (chamada Y) é variável quantitativa, enquanto Xpode ser quantitativa ou qualitativa (fator com diferentes níveis). Ambos Xe Ypodem ser um ou mais em número. Normalmente dizemos ANOVA para variáveis qualitativas, ANOVA em contexto de regressão é menos discutida. Pode ser que isso seja causa de sua confusão. A hipótese nula na variável qualitativa (fatores, por exemplo, grupos) é que a média dos grupos não é diferente / igual, enquanto na análise de regressão testamos se a inclinação da linha é significativamente diferente de 0.

Vamos ver um exemplo em que podemos fazer análise de regressão e ANOVA de fator qualitativo, pois X e Y são quantitativos, mas podemos tratar X como fator.

    X1 <- rep(1:5, each = 5)
    Y1 <- c(12,14,18,12,14,  21,22,23,24,18,  25,23,20,25,26, 29,29,28,30,25, 29,30,32,28,27)
   myd <- data.frame (X1,Y1)

Os dados são os seguintes.

Agora fazemos regressão e ANOVA. Primeira regressão:

 reg <- lm(Y1~X1, data=myd)
 anova(reg)

Analysis of Variance Table

Response: Y1
          Df Sum Sq Mean Sq F value    Pr(>F)    
X1         1 684.50  684.50   101.4 6.703e-10 ***
Residuals 23 155.26    6.75                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

reg$coefficients             
(Intercept)          X1 
      12.26        3.70

Agora ANOVA convencional (ANOVA média para fator / variável qualitativa) convertendo X1 em fator.

myd$X1f <- as.factor (myd$X1)
     regf <- lm(Y1~X1f, data=myd)
     anova(regf)
Analysis of Variance Table

Response: Y1
          Df Sum Sq Mean Sq F value    Pr(>F)    
X1f        4 742.16  185.54   38.02 4.424e-09 ***
Residuals 20  97.60    4.88                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Você pode ver o X1f Df alterado, que é 4 em vez de 1 no caso acima.

Em contraste com a ANOVA para variáveis qualitativas, no contexto de variáveis quantitativas onde fazemos análise de regressão - a Análise de Variância (ANOVA) consiste em cálculos que fornecem informações sobre níveis de variabilidade dentro de um modelo de regressão e formam uma base para testes de significância.

Basicamente, a ANOVA testa a hipótese nula beta = 0 (com a hipótese alternativa beta não é igual a 0). Aqui, testamos F qual a razão de variabilidade explicada pelo modelo vs erro (variação residual). A variação do modelo vem do valor explicado pela linha que você ajustou, enquanto o residual vem do valor que não é explicado pelo modelo. Um F significativo significa que o valor beta não é igual a zero, significa que existe uma relação significativa entre duas variáveis.

 > anova(reg1)
    Analysis of Variance Table

    Response: Y
              Df Sum Sq Mean Sq F value Pr(>F)  
    X          1 81.719  81.719  6.3331 0.0656 .
    Residuals  4 51.614  12.904                 
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Aqui podemos ver alta correlação ou resultado do quadrado R, mas ainda não significativo. Às vezes, você pode obter um resultado em que baixa correlação ainda é significativa. A razão da relação não significativa nesse caso é que não temos dados suficientes (n = 6, df residual = 4), portanto, F deve ser visto na distribuição F com o numerador 1 df vs 4 denomerador df. Portanto, neste caso, não poderíamos descartar a inclinação não é igual a 0.

Vamos ver outro exemplo:

 X = c(4,5,8,6,2,  5,6,4,2,3,   8,2,5,6,3,  8,9,3,5,10)
    Y = c(3,6,9,8,6,  8,6,8,10,5,  3,3,2,4,3,  11,12,4,2,14)
    reg3 <- lm(Y~X)
    anova(reg3)


     Analysis of Variance Table

    Response: Y
              Df  Sum Sq Mean Sq F value  Pr(>F)  
    X          1  69.009  69.009   7.414 0.01396 *
    Residuals 18 167.541   9.308                  
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Valor R-quadrado para esses novos dados:

 summary(reg3)$r.squared
 [1] 0.2917296
cor(X,Y)
[1] 0.54012

Embora a correlação seja menor que no caso anterior, obtivemos uma inclinação significativa. Mais dados aumentam df e fornecem informações suficientes para que possamos descartar a hipótese nula de que a inclinação não é igual a zero.

Vamos dar outro exemplo em que há correlação negativa:

 X1 = c(4,5,8,6,12,15)
    Y1 = c(18,16,2,4,2, 8)
   # correlation 
    cor(X1,Y1)
 -0.5266847
   # r-square using regression
    reg2 <- lm(Y1~X1)
   summary(reg2)$r.squared
 0.2773967
  sqrt(summary(reg2)$r.squared)
[1] 0.5266847

Como os valores foram elevados ao quadrado, a raiz quadrada não fornecerá informações sobre relacionamento positivo ou negativo aqui. Mas a magnitude é a mesma.

Caso de regressão múltipla:

A regressão linear múltipla tenta modelar a relação entre duas ou mais variáveis explicativas e uma variável de resposta, ajustando uma equação linear aos dados observados. A discussão acima pode ser estendida para vários casos de regressão. Nesse caso, temos vários beta no termo:

y = a + beta1X1 + beta2X2 + beta2X3 + ................+ betapXp + error 

Example: 
    X1 = c(4,5,8,6,2,  5,6,4,2,3,   8,2,5,6,3,  8,9,3,5,10)
    X2 = c(14,15,8,16,2,  15,3,2,4,7,   9,12,5,6,3,  12,19,13,15,20)
    Y = c(3,6,9,8,6,  8,6,8,10,5,  3,3,2,4,3,  11,12,4,2,14)
    reg4 <- lm(Y~X1+X2)

Vamos ver os coeficientes do modelo:

reg4$coefficients

(Intercept)          X1          X2 
 2.04055116  0.72169350  0.05566427

Assim, seu modelo de regressão linear múltipla seria:

Y = 2.04055116 + 0.72169350 * X1 + 0.05566427* X2

Agora vamos testar se o beta para X1 e X2 é maior que 0.

 anova(reg4)
    Analysis of Variance Table

    Response: Y
              Df  Sum Sq Mean Sq F value  Pr(>F)  
    X1         1  69.009  69.009  7.0655 0.01656 *
    X2         1   1.504   1.504  0.1540 0.69965  
    Residuals 17 166.038   9.767                  
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Aqui dizemos que a inclinação de X1 é maior que 0, enquanto não podemos determinar que a inclinação de X2 seja maior que 0.

Observe que a inclinação não é correlação entre X1 e Y ou X2 e Y.

> cor(Y, X1)
[1] 0.54012
> cor(Y,X2)
[1] 0.3361571

Em situações de múltiplas variáveis (onde as variáveis são maiores que duas, a correlação parcial entra em cena. A correlação parcial é a correlação de duas variáveis enquanto se controla uma terceira ou mais outras variáveis.

source("http://www.yilab.gatech.edu/pcor.R")
pcor.test(X1, Y,X2)
   estimate    p.value statistic  n gn  Method            Use
1 0.4567979 0.03424027  2.117231 20  1 Pearson Var-Cov matrix
pcor.test(X2, Y,X1)
    estimate   p.value statistic  n gn  Method            Use
1 0.09473812 0.6947774 0.3923801 20  1 Pearson Var-Cov matrix

— Ram Sharma
fonte

1

Análise de variância (ANOVA) e regressão são realmente muito semelhantes (alguns diriam que são a mesma coisa).

Em Análise de variância, normalmente você tem algumas categorias (grupos) e uma variável de resposta quantitativa. Você calcula a quantidade de erro geral, a quantidade de erro dentro de um grupo e a quantidade de erro entre os grupos.

Na regressão, você não necessariamente tem mais grupos, mas ainda pode particionar a quantidade de erro em um erro geral, a quantidade de erro explicada pelo seu modelo de regressão e o erro inexplicado pelo seu modelo de regressão. Os modelos de regressão geralmente são exibidos usando tabelas ANOVA e é uma maneira fácil de ver quanta variação é explicada pelo seu modelo.

— stats_noob
fonte