Interpretação de saída de regressão linear simples

20

Eu executei uma regressão linear simples do log natural de 2 variáveis para determinar se elas se correlacionam. Minha saída é esta:

R^2 = 0.0893

slope = 0.851

p < 0.001

Estou confuso. Olhando para o valor de , eu diria que as duas variáveis não estão correlacionadas, uma vez que é tão próximo de . No entanto, a inclinação da linha de regressão é quase (apesar de parecer quase horizontal na plotagem), e o valor p indica que a regressão é altamente significativa. $R^2$ $0$ $1$

Isso significa que as duas variáveis estão altamente correlacionadas? Nesse caso, o que o valor indica? $R^2$

Devo acrescentar que a estatística Durbin-Watson foi testada no meu software e não rejeitou a hipótese nula (era igual a ). Eu pensei que isso testou a independência entre as variáveis. Nesse caso, eu esperaria que as variáveis fossem dependentes, uma vez que são medidas de um pássaro individual. Estou fazendo essa regressão como parte de um método publicado para determinar a condição corporal de um indivíduo, por isso presumi que usar uma regressão dessa maneira fazia sentido. No entanto, dadas essas saídas, acho que talvez para esses pássaros esse método não seja adequado. Parece uma conclusão razoável? $1.357$ $2$ $2$

regression r-squared

— Mog
fonte

1

A estatística Durbin-Watson é um teste para correlação serial: ou seja, para verificar se termos de erro adjacentes estão mutuamente correlacionados. Não diz nada sobre a correlação entre o seu X e o seu Y! A reprovação no teste é uma indicação de que a inclinação e o valor p devem ser interpretados com cautela.

— whuber

Ah ok. Isso faz um pouco mais de sentido do que se as duas variáveis estão correlacionadas ... afinal, eu pensei que era isso que eu estava tentando encontrar usando a regressão. E que falhar no teste indica que eu deveria ser cauteloso ao interpretar a inclinação e o valor p faz ainda mais sentido neste caso! Obrigado @whuber!

— Mog

1

Gostaria apenas de adicionar uma inclinação que pode ser muito significativa (valor de p <0,001), mesmo que o relacionamento seja fraco, especialmente com um tamanho de amostra grande. Isso foi sugerido na maioria das respostas, pois a inclinação (mesmo que seja significativa) não diz nada sobre a força do relacionamento.

— Glen

Você precisa de

para determinar a força do relacionamento. Consulte também stats.stackexchange.com/a/265924/99274 .

n

$n$

— Carl

22

O valor estimado da inclinação não indica, por si só, a força do relacionamento. A força do relacionamento depende do tamanho da variação do erro e do intervalo do preditor. Além disso, um valor significativo não indica necessariamente que existe um relacionamento forte; o valor está simplesmente testando se a inclinação é exatamente 0. Para um tamanho de amostra suficientemente grande, mesmo pequenas desvios dessa hipótese (por exemplo, aqueles que não são de importância prática) produzirão um valor significativo . $p$ $p$ $p$

Das três quantidades que apresentados, , o coeficiente de determinação , dá a maior indicação da força da relação. No seu caso, , meios que de variação na sua variável de resposta pode ser explicada uma relação linear com o preditor. O que constitui um "grande" é dependente disciplina. Por exemplo, nas ciências sociais pode ser "grande", mas em ambientes controlados, como a configuração de fábrica, $R^2$ $R^{2} = .089$ $8.9\%$ $R^2$ $R^2 = .2$ $R^2 > .9$ pode ser necessário dizer que existe um relacionamento "forte". Na maioria das situações é um pequeno , assim que sua conclusão de que existe uma relação linear fraca é provavelmente razoável. $.089$ $R^2$

— Macro
fonte

Obrigado Macro. Resposta muito útil. Fico feliz que você tenha incluído a parte sobre o que exatamente o valor p está testando. Faz muito sentido que o valor de p seja tão baixo, considerando a proximidade de 1 da inclinação. Parece-me, à luz de sua resposta e @jedfrancis ', o valor r ^ 2 descreve essa' nuvem 'de dados aponta em torno da linha de regressão. Excelente! Isso é muito mais claro agora!

— 1913 Mog

@ Macro (+1), resposta perfeita. Mas como a "força do relacionamento" depende do "tamanho da interceptação"? AFAIK, a interceptação nada diz sobre correlação ou "força" de um relacionamento linear.

— whuber

@whuber, você está certo - a interceptação é irrelevante e definitivamente não altera a correlação - eu estava pensando na função de regressão

vs.

e pensando de alguma forma no segundo sendo um relacionamento mais forte ( tudo o mais é igual), uma vez que uma quantidade maior da magnitude de

era devida a

no último caso. Não faz muito sentido agora que penso nisso. Eu editei a postagem.

y = 10000 + x

$y = 10000 + x$

y = x

$y = x$

y

$y$

x

$x$

— Macro

4

@macro Excelente resposta, mas gostaria de enfatizar (para aqueles que não conhecem esse assunto) que R ^ 2 pode ser muito baixo, mesmo com um relacionamento forte, se o relacionamento for não-linear e, principalmente, não-monotônico. Meu exemplo favorito disso é a relação entre estresse e pontuação no exame; estresse muito baixo e muito alto tendem a ser piores que o estresse moderado.

— Peter Flom - Restabelece Monica

1

@ macro Sim, sua resposta foi boa, mas trabalhei com pessoas que não conhecem muitas estatísticas e vi o que acontece ... às vezes o que dizemos não é o que ouvem!

— Peter Flom - Restabelece Monica

14

O diz-lhe quanto a variação da variável dependente é explicada por um modelo. No entanto, pode-se interpretar o , bem como a correlação entre os valores originais da variável dependente e os valores ajustados. A interpretação exacta e derivação do coeficiente de determinação pode ser encontrada aqui . $R^{2}$ $R^{2}$ $R^{2}$

A prova de que o coeficiente de determinação é o equivalente do coeficiente de correlação quadrado de Pearson entre os valores observados e os valores ajustados pode ser encontrado aqui . $y_{i}$ $\hat{y}_{i}$

O ou coeficiente de determinação indica que a força de seu modelo em explicar a variável dependente. No seu caso, . Isso que seu modelo é capaz de explicar 8,9% da variação da sua variável dependente. Ou, o coeficiente de correlação entre o e os seus valores ajustados é 0,089. O que constitui uma boa é dependente disciplina. $R^{2}$ $R^{2}=0.089$ $y_{i}$ $\hat{y}_{i}$ $R^{2}$

Finalmente, até a última parte da sua pergunta. Você não pode fazer com que o teste de Durbin-Watson diga algo sobre a correlação entre suas variáveis dependentes e independentes. O teste de Durbin-Watson testa a correlação serial. É conduzido para examinar se os termos do seu erro estão mutuamente correlacionados.

— Lionel Benza
fonte

9

O valor informa a quantidade de variação nos dados é explicada pelo modelo ajustado. $R^2$

O baixo valor em seu estudo sugere que os seus dados são provavelmente espalhou amplamente em torno da linha de regressão, o que significa que o modelo de regressão só pode explicar (muito pouco) 8,9% da variação nos dados. $R^2$

Você verificou se um modelo linear é apropriado? Veja a distribuição de seus resíduos, pois você pode usá-lo para avaliar a adequação do modelo aos seus dados. Idealmente, seus resíduos não devem mostrar uma relação com seus valores e, se isso acontecer, você pode pensar em redimensionar suas variáveis de forma adequada ou ajustar um modelo mais apropriado. $x$

— jedfrancis
fonte

Obrigado @jed. Sim, eu verifiquei a normalidade dos resíduos e estava tudo bem. Sua sugestão de que os dados estão espalhados amplamente em torno dessa linha de regressão é exatamente correta - os pontos de dados parecem uma nuvem em torno da linha de regressão plotada pelo software.

— 19411 Mog

1

Bem-vindo ao nosso site, @jed, e obrigado pela sua resposta! Observe que a própria inclinação não diz quase nada sobre a correlação, além do seu sinal, porque a correlação não depende das unidades em que X e Y são medidos, mas a inclinação sim.

— whuber

1

@whuber está dizendo que o valor da inclinação que não lhe dizer nada sobre a força da associação, a menos que as variáveis são padronizados. Veja a resposta shabbychefs.

— wolf.rauch

@ wolf.rauch gotcha

— jedfrancis

@ jed Seria bom se você corrigisse sua resposta.

— whuber

7

Para uma regressão linear, o declive equipada vai ser a correlação (que, quando quadrado, dá o coeficiente de determinação, o ) vezes o desvio padrão empírico da regressando (a ) dividido pelo desvio padrão empírico da regressor (o ). Dependendo da escala do e , você pode ter um ajuste inclinação igual a um, mas um arbitrariamente pequena valor. $R^2$ $y$ $x$ $x$ $y$ $R^2$

Em suma, a inclinação não é um bom indicador do 'ajuste' do modelo, a menos que você tenha certeza de que as escalas das variáveis dependentes e independentes devem ser iguais umas às outras.

— shabbychef
fonte

1

Gosto das respostas já dadas, mas permita-me complementá-las com uma abordagem diferente (e mais explícita).

Suponha que coligamos um monte de observações de 1000 pessoas aleatórias tentando descobrir se socos no rosto estão associados a dores de cabeça:

H e uma d uma c h e s = β_{0 0} + β_{1} P você n c h_Eu n_t h e_f uma c e + ε

$Headaches = \beta_0 + \beta_1 Punch\_in\_the\_face + \varepsilon$

$\varepsilon$

$\beta_1$ $R^2$ será baixo. Por quê? Para a grande maioria da população, as dores de cabeça não serão explicadas muito por socos na cara. Em outras palavras, a maior parte da variação nos dados (isto é, se as pessoas têm poucas ou muitas dores de cabeça) ficará sem explicação se você incluir apenas socos na cara, mas os socos na cara são MUITO importantes para dores de cabeça.

Graficamente, isso provavelmente se parece com uma encosta íngreme, mas com uma variação muito grande em torno dessa encosta.

— cd98
fonte

0

@Macro had a great answer.

The estimated value of the slope does not, by itself, tell you the strength of the relationship. The strength of the relationship depends on the size of the error variance, and the range of the predictor. Also, a significant pp-value doesn't tell you necessarily that there is a strong relationship; the pp-value is simply testing whether the slope is exactly 0.

I just want to add a numerical example to show what is looks like to have a case OP described.

Low $R^2$
Significant on p-value

Slope close to $1.0$

set.seed(6)
y=c(runif(100)*50,runif(100)*50+10)
x=c(rep(1,100),rep(10,100))
plot(x,y)

fit=lm(y~x)
summary(fit)
abline(fit)


> summary(lm(y~x))

Call:
lm(formula = y ~ x)

Residuals:
   Min     1Q Median     3Q    Max 
-24.68 -13.46  -0.87  14.21  25.14 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  25.6575     1.7107  14.998  < 2e-16 ***
x             0.9164     0.2407   3.807 0.000188 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 15.32 on 198 degrees of freedom
Multiple R-squared:  0.0682,    Adjusted R-squared:  0.06349 
F-statistic: 14.49 on 1 and 198 DF,  p-value: 0.0001877

— Haitao Du
fonte