A correlação ou coeficiente de determinação está relacionada à porcentagem de valores que caem ao longo de uma linha de regressão?

12

Correlação, $r$ , é uma medida de associação linear entre duas variáveis. O coeficiente de determinação, , é uma medida de quanto da variabilidade em uma variável pode ser "explicada por" variação na outra. $r^2$

Por exemplo, se é a correlação entre duas variáveis, então . Portanto, 64% da variabilidade em um pode ser explicada por diferenças no outro. Certo? $r = 0.8$ $r^2 = 0.64$

Minha pergunta é, para o exemplo declarado, alguma das seguintes afirmações está correta?

64% dos valores caem na linha de regressão
80% dos valores caem ao longo da linha de regressão

regression correlation r-squared

— Bradex
fonte

O termo "cair junto" é impreciso. Parece que pelo menos algumas respostas o interpretam como "exatamente", e aí a resposta claramente não é (embora essa idéia possa levar a uma medida interessante de associação linear que pode ser adequada em algumas situações particulares - por exemplo, onde há houve uma mistura de nenhum ruído / erro durante a maior parte do tempo, e algum erro ocasionalmente, como em algum processo de contaminação - e você estaria estimando a proporção de dados não contaminados). Se você quis dizer algo diferente de "colocar exatamente", seria necessário especificar qual era esse significado.

— Glen_b -Reinstar Monica

8

A primeira parte disso está basicamente correta - mas 64% da variação é explicada pelo modelo. Em uma regressão linear simples: Y ~ X, se é 0,64 isso significa que 64% da variação em Y é determinada pela relação linear entre Y e X. É possível ter uma forte relação com muito baixa , se o relacionamento for fortemente não linear. $R^2$ $R^2$

Em relação às suas duas perguntas numeradas, nenhuma delas está correta. De fato, é possível que nenhum dos pontos esteja exatamente na linha de regressão. Não é isso que está sendo medido. Pelo contrário, é uma questão de quão próximo o ponto médio está da linha. Se todos ou quase todos os pontos estão perto (mesmo que nenhum deles está exatamente na linha), então será elevado. Se a maioria dos pontos estão longe de ser a linha, será baixo. Se a maioria dos pontos estiver próxima, mas alguns estiverem longe, a regressão está incorreta (problema de outliers). Outras coisas também podem dar errado. $R^2$ $R^2$

Além disso, deixei a noção de "longe" bastante vaga. Isso vai depender de como os X estão espalhados. Tornar essas noções precisas faz parte do que você aprende em um curso sobre regressão; Eu não vou entrar aqui.

— Peter Flom - Restabelece Monica
fonte

Bem, isso esclareceu muito para mim! Obrigado Mimshot e Peter Flom! Muito grato a vocês dois! :)

— Bradex

1

+1, boa resposta, você se importaria em adicionar algo como "De fato, [é possível que] nenhum dos pontos possa estar ...". Além disso, pode valer a pena discutir que a noção de quão longe os pontos estão da linha também é relativa à extensão dos Xs.

— gung - Restabelece Monica

15

Você está certo com a primeira parte de sua declaração. A maneira usual de interpretar o coeficiente de determinação é como a percentagem da variação da variável dependente ( ) que são capazes de explicar com as variáveis explanatórias. A interpretação exacta e derivação do coeficiente de determinação podem ser encontrados aqui $R^{2}$ $y$ $Var(y)$ $R^{2}$

http://economictheoryblog.com/2014/11/05/the-coefficient-of-determination-latex-r2/

No entanto, a interpretação de uma maneira menos conhecido do coeficiente de determinação é para interpretar como como o Coeficiente de Correlação quadrado de Pearson entre os valores observados e os valores ajustados . A prova de que o coeficiente de determinação é o equivalente do coeficiente de correlação de Pearson Squared entre os valores observados e os valores ajustados pode ser encontrada aqui $R^{2}$ $y_{i}$ $\hat{y}_{i}$ $y_{i}$ $\hat{y}_{i}$

http://economictheoryblog.com/2014/11/05/proof/

Na minha vista estas são as únicas maneiras significativas de interpretar o coeficiente de determinação . Daqui resulta que as duas declarações feitas não pode ser derivada a partir do . $R^{2}$ $R^{2}$

— Michael
fonte

2

Não estou certo de que há apenas duas maneiras de interpretar

( certamente há mais de duas maneiras de interpretar

), mas a razão segue-se que as duas declarações dadas não pode ser derivada a partir do

é que eles são falsos ( pelas razões que @PeterFlom explica), em vez de nenhuma outra interpretação ser possível. Mas, caso contrário, acho que é uma boa resposta.

R^{2}

$R^2$

r

$r$

R^{2}

$R^2$

— Silverfish

2

Caso os links fornecidos fiquem inoperantes em algum momento no futuro (o linkrot é um problema eterno - preferimos tornar as respostas independentes, se possível, mas claramente essa pergunta não exige provas completas para que o link seja conveniente), temos alguns cobertura da relação entre

e

, aqui , aqui , aqui e mais geometricamente, aqui .

Corr (y, \hat{y})

$\operatorname{Corr}(y, \hat y)$

R^{2}

$R^2$

— Silverfish

2

Niether 1 nem 2 está correto.

Digamos que você esteja tentando prever um conjunto de valores de um conjunto de valores $\pmb{y}$ $\pmb{x}$

y_{i} = b + m x_{i} + ϵ_{i}

$y_i = b + mx_i + \epsilon_i$

$\epsilon_i \sim \mathcal{N(0,\sigma^2)}$ $R^2=.64$ $y$ $x$

{\hat{y}}_{i} = b + m x_{i}

$\hat{y}_i = b + mx_i$

Então

1 - 0.64 = 0.36 = \frac{v a r (y y - \hat{y} \hat{y})}{v a r (y y)}

$1-0.64 = 0.36 = \frac{\mathrm{var}(\pmb{y}-\pmb{\hat{y}})}{\mathrm{var}(\pmb{y})}$

— Mimshot
fonte