Como entender a fórmula do coeficiente de correlação?


15

Alguém pode me ajudar a entender a fórmula de correlação de Pearson? a amostra = a média dos produtos das contagens padrão das variáveis X e Y .rXY

Eu meio que entendo por que eles precisam padronizar e Y , mas como entender os produtos de ambas as pontuações z? XY

Essa fórmula também é chamada de "coeficiente de correlação momento-produto", mas qual é a justificativa para a ação do produto? Não tenho certeza se deixei minha pergunta clara, mas só quero lembrar a fórmula intuitivamente.


11
Você pode ler o artigo "Treze Maneiras de Analisar o Coeficiente de Correlação" (Rodgers & Nicewander 1988). Como o título indica, ele discute treze diferentes visões intuitivas do coeficiente de correlação. Então, espero que pelo menos um clique :)
half-pass

10
13 maneiras podem ser encontradas aqui
Dimitriy V. Masterov

4
Uma décima quarta maneira de entender a correlação (em termos de produtos das pontuações z) se resume à compreensão da covariância das variáveis ​​padronizadas, conforme ilustrado em stats.stackexchange.com/questions/18058/… .
whuber

4
... E uma 15ª maneira usa os círculos mostrados em stats.stackexchange.com/a/46508/919 : um ajuste de mínimos quadrados minimiza a área total dos círculos (há pelo menos duas maneiras de fazer isso quando os pontos são não precisa alinhar) e o coeficiente de correlação é a área média (quando as duas variáveis ​​são padronizadas).
whuber

Respostas:


14

Nos comentários, foram sugeridas 15 maneiras de entender o coeficiente de correlação:


As 13 maneiras discutidas no artigo de Rodgers e Nicewander (The American Statistician, fevereiro de 1988) são

  1. Uma função de notas e meios brutos,

    r=(XiX¯)(YiY¯)(XiX¯)2(YiY¯)2.
  2. Covariância Padronizada,

    r=sXY/(sXsY)

    onde é covariância de amostra es X e ssXYsX são desvios padrão da amostra.sY

  3. Inclinação Padronizada da Linha de Regressão,

    r=bYXsXsY=bXYsYsX,

    onde e b X Y são as inclinações das linhas de regressão.bYXbXY

  4. A média geométrica das duas inclinações de regressão,

    r=±bYXbXY.
  5. A raiz quadrada da razão de duas variações (proporção de variabilidade contabilizada),

    r=(YiYi^)2(YiY¯)2=SSREGSSTOT=sY^sY.
  6. O produto cruzado médio de variáveis ​​padronizadas,

    r=zXzY/N.
  7. Uma função do ângulo entre as duas linhas de regressão padronizada. As duas linhas de regressão (de vs. X e X vs. Y ) são simétricas em relação à diagonal. Seja o ângulo entre as duas linhas β . EntãoYXXYβ

    r=sec(β)±tan(β).
  8. Uma função do ângulo entre os dois vetores variáveis,

    r=cos(α).
  9. zYzXXY

    r=1s(zYzX)2/2=s(zY+zX)2/21.
  10. Estimated from the "Balloon" Rule,

    r1(h/H)2

    where H is the vertical range of the entire XY scatterplot and h is the range through the "center of the distribution on the X axis" (that is, through the point of means).

  11. In Relation to the Bivariate Ellipses of Isoconcentration,

    r=D2d2D2+d2

    where D and d are the major and minor axis lengths, respectively. r also equals the slope of the tangent line of an isocontour (in standardized coordinates) at the point the contour crosses the vertical axis.

  12. A Function of Test Statistics from Designed Experiments,

    r=tt2+n2

    where t is the test statistic in a two-independent sample t test for a designed experiment with two treatment conditions (coded as X=0,1) and n is the combined total number of observations in the two treatment groups.

  13. The Ratio of Two Means. Assume bivariate normality and standardize the variables. Select some arbitrarily large value Xc of X. Then

    r=E(Y|X>Xc)E(X|X>Xc).

(Most of this is verbatim, with very slight changes in some of the notation.)

Some other methods (perhaps original to this site) are

  • Via circles. r is the slope of the regression line in standardized coordinates. This line can be characterized in various ways, including geometric ones, such as minimizing the total area of circles drawn between the line and the data points in a scatterplot.

  • By coloring rectangles. Covariance can be assessed by coloring rectangles in a scatterplot (that is, by summing signed areas of rectangles). When the scatterplot is standardized, the net amount of color--the total signed error--is r.


2
Thank you, @Avraham, for trying to bring this unanswered thread to some closure by posting an answer here.
whuber
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.