O coeficiente de correlação geralmente é escrito com maiúsculo, mas às vezes não. Gostaria de saber se realmente existe uma diferença entre e ? pode significar algo além de um coeficiente de correlação?r 2 R 2 r
O coeficiente de correlação geralmente é escrito com maiúsculo, mas às vezes não. Gostaria de saber se realmente existe uma diferença entre e ? pode significar algo além de um coeficiente de correlação?r 2 R 2 r
Respostas:
A notação sobre esse assunto parece variar um pouco.
é usado no contexto de correlação múltipla e é chamado de "coeficiente de correlação múltipla". É a correlação entre as respostas observadas Y e a Y montados pelo modelo. O Y é geralmente previsto a partir de várias variáveis de previsão X i , por exemplo, Y = β 0 + β 1 X 1 + β 2 X 2 , onde os coeficientes e do declive p i foram calculados a partir dos dados. Note que 0 .
O símbolo é o "coeficiente de correlação da amostra" usado no caso bivariado - ou seja, existem duas variáveis, X e Y - e geralmente significa a correlação entre X e Y na sua amostra. Você pode tratar isso como uma estimativa da correlação ρ entre as duas variáveis na população em geral. Para correlacionar duas variáveis, não é necessário identificar qual é o preditor e qual é a resposta. De fato, se você encontrasse a correlação entre Y e X , seria a mesma correlação entre X e Y , porque a correlação é simétrica. Observe que quando o símbolo r é usado dessa maneira, com r < 0 (correlação negativa) se as duas variáveis tiverem uma relação linearmente decrescente (quando uma aumenta, a outra tende a diminuir).
Onde a notação se torna inconsistente é quando existem duas variáveis, e Y , e uma regressão linear simples é realizada. Isto significa identificar uma variável, Y , como a variável de resposta, e o outro, X , como a variável de previsão, e ajustar o modelo Y = β 0 + β 1 X . Algumas pessoas também usam o símbolo r para indicar a correlação entre Y e Y , enquanto outros (para consistência com regressão múltipla) write R. Observe que a correlação entre as respostas observadas e as ajustadas é necessariamente maior ou igual a zero. Esta é uma razão que não fazer, como o uso do símbolo neste caso: a correlação entre X e Y pode ser negativo, enquanto que a correlação entre Y e Y é positivo (na verdade, será simplesmente o módulo do correlação entre X e Y ), mas ambos podem ser escritos com o símbolo r . Eu já vi alguns livros didáticos e artigos da Wikipedia alternando quase de forma intercambiável entre os dois significados de r e achei desnecessariamente confuso. Eu prefiro usar o símbolo Rpara a correlação entre e Y em ambos regressão simples e múltipla.
Em ambos simples e regresión múltiplo, então, desde que não é um termo intercepção montado no modelo, o entre Y e Y é simplesmente a raiz quadrada do coeficiente de determinação R 2 (muitas vezes chamado "proporção da variância explicada" ou semelhante). No caso de regressão linear simples especificamente, em seguida, onde Eu estou escrevendo para a correlação entre X e Y , e R 2 pode representar quer o coeficiente de determinação da regressão ou o quadrado da correlação entre e Y . Como - 1 ≤ r ≤ 1 e 0 ≤ R ≤ 1 , isso significa que R = | r | . Assim, por exemplo, se obtenha uma correlação entre X e Y de r = - 0,7 , em seguida, a correlação entre Y e o equipada Y a partir da regressão linear simples Y = β 0 + β 1 Xseria e o coeficiente de determinação seria R 2 = 0,49, ou seja, quase metade da variação na resposta seria explicada pelo seu modelo.
Se nenhum termo intercepção foi incluída no modelo, então o símbolo é ambíguo. Ele geralmente é planejado como o coeficiente de determinação, mas isso geralmente será calculado de uma maneira diferente da usual , portanto, tenha cuidado ao ler a saída do seu software estatístico. Então não é mais o mesmo que o quadrado da correlação múltipla R , nem no caso bivariado será igual a r 2 !