Eu esperaria que o coeficiente de correlação fosse o mesmo que uma inclinação de regressão (beta), no entanto, tendo acabado de comparar os dois, eles são diferentes. Como eles diferem - que informações diferentes eles fornecem?
Eu esperaria que o coeficiente de correlação fosse o mesmo que uma inclinação de regressão (beta), no entanto, tendo acabado de comparar os dois, eles são diferentes. Como eles diferem - que informações diferentes eles fornecem?
Respostas:
Supondo que você esteja falando de um modelo de regressão simples estimado por mínimos quadrados, sabemos na wikipedia que Portanto, os dois só coincidem quando . Ou seja, eles só coincidem quando as duas variáveis estão na mesma escala, em algum sentido. A maneira mais comum de conseguir isso é através da padronização, conforme indicado por @gung.
Os dois, em certo sentido, fornecem as mesmas informações - cada um deles diz a força do relacionamento linear entre e . Mas, cada um deles fornece informações distintas (exceto, é claro, quando são exatamente iguais):
A correlação fornece uma medida limitada que pode ser interpretada independentemente da escala das duas variáveis. Quanto mais próxima a correlação estimada for , mais próximas as duas estarão de um relacionamento linear perfeito . A inclinação da regressão, isoladamente, não informa esse pedaço de informação.
A inclinação da regressão fornece uma quantidade útil interpretada como a alteração estimada no valor esperado de para um determinado valor de . Especificamente, informa a alteração no valor esperado de correspondente a um aumento de 1 unidade em . Esta informação não pode ser deduzida apenas do coeficiente de correlação.
Com regressão linear simples (ou seja, apenas 1 covariável), a inclinação é a mesma que de Pearson se ambas as variáveis foram padronizadas primeiro. (Para obter mais informações, você pode achar minha resposta útil aqui .) Quando você está fazendo uma regressão múltipla, isso pode ser mais complicado devido à multicolinearidade etc.
O coeficiente de correlação mede a "tensão" da relação linear entre duas variáveis e é delimitado entre -1 e 1, inclusive. Correlações próximas a zero não representam associação linear entre as variáveis, enquanto correlações próximas a -1 ou +1 indicam forte relação linear. Intuitivamente, quanto mais fácil você desenhar uma linha de melhor ajuste por meio de um gráfico de dispersão, mais correlacionadas elas são.
A inclinação da regressão mede a "inclinação" da relação linear entre duas variáveis e pode levar qualquer valor de a . Inclinações próximas de zero significam que a variável resposta (Y) muda lentamente, à medida que a variável preditor (X) muda. As inclinações que estão mais longe de zero (na direção negativa ou positiva) significam que a resposta muda mais rapidamente à medida que o preditor muda. Intuitivamente, se você desenhar uma linha que melhor se encaixe em um gráfico de dispersão, quanto mais íngreme for, mais inclinada será o seu declive.
Portanto, o coeficiente de correlação e a inclinação da regressão DEVEM ter o mesmo sinal (+ ou -), mas quase nunca terão o mesmo valor.
Para simplificar, essa resposta assume regressão linear simples.
O coeficiente de correlação de Pearson é adimensional e dimensionado entre -1 e 1, independentemente da dimensão e escala das variáveis de entrada.
Se (por exemplo) você inserir uma massa em gramas ou quilogramas, isso não fará diferença no valor de , enquanto isso fará uma tremenda diferença no gradiente / declive (que tem dimensão e é dimensionado de acordo ... não faria diferença para se a balança for ajustada de alguma maneira, incluindo libras ou toneladas).
Uma demonstração simples (desculpas pelo uso do Python!):
import numpy as np
x = [10, 20, 30, 40]
y = [3, 5, 10, 11]
np.corrcoef(x,y)[0][1]
x = [1, 2, 3, 4]
np.corrcoef(x,y)[0][1]
mostra que mesmo que a inclinação tenha sido aumentada por um fator de 10.
Devo confessar que é um truque interessante que passa a ser escalado entre -1 e 1 (um daqueles casos em que o numerador nunca pode ter um valor absoluto maior que o denominador).
Como o @Macro detalhou acima, a inclinação , portanto, você está certo ao intuir que o de Pearson está relacionado à inclinação, mas apenas quando ajustado de acordo com aos desvios padrão (que efetivamente restaura as dimensões e escalas!).
No começo, achei estranho que a fórmula parecesse sugerir uma linha pouco ajustada (baixo ) resulta em um gradiente mais baixo; plotei um exemplo e percebi que, dado um gradiente, a variação da "folga" resulta em diminuindo, mas isso é compensado por um aumento proporcional em .
No gráfico abaixo, quatro conjuntos de dados são plotados:
Pode-se observar que a variação afeta sem necessariamente afetar , e as unidades de medida podem afetar a escala e, portanto, sem afetar