Como você explicaria a diferença entre correlação e covariância?


109

Seguindo essa pergunta, como você explicaria a covariância para alguém que entende apenas a média? , que aborda a questão de explicar a covariância a uma pessoa leiga, levantou uma questão semelhante em minha mente.

Como alguém explicaria a um neófito estatístico a diferença entre covariância e correlação ? Parece que ambos se referem à mudança em uma variável vinculada a outra variável.

Semelhante à questão referida, seria preferível a falta de fórmulas.

Respostas:


109

O problema das covariâncias é que elas são difíceis de comparar: quando você calcula a covariância de um conjunto de alturas e pesos, conforme expresso em (respectivamente) metros e quilogramas, você obtém uma covariância diferente de quando o faz em outras unidades ( que já causa um problema para as pessoas que fazem a mesma coisa com ou sem o sistema métrico!), mas também será difícil dizer se (por exemplo) altura e peso 'covaria mais' do que, digamos, o comprimento dos dedos dos pés e das mãos , simplesmente porque a 'escala' em que a covariância é calculada é diferente.

A solução para isso é 'normalizar' a covariância: você divide a covariância por algo que representa a diversidade e a escala em ambas as covariáveis ​​e acaba com um valor que é garantido entre -1 e 1: a correlação. Qualquer que seja a unidade em que suas variáveis ​​originais estivessem, você sempre obterá o mesmo resultado, e isso também garantirá que você possa, até certo ponto, comparar se duas variáveis ​​'correlacionam' mais de duas outras, simplesmente comparando a correlação delas.

Nota: o exposto acima pressupõe que o leitor já entenda o conceito de covariância.


2
+1 Você quis escrever "correlação" em vez de "covariância" na última frase?
whuber

Tem certeza de que não pode comparar covariâncias com unidades diferentes? As unidades passam pela covariância multiplicada - se seu X está dentro cme seu Y está dentro s, então seu . E então você pode simplesmente multiplicar pelo resultado pelo fator de conversão da unidade. cov(X,Y)=z cmscov(cars$speed,cars$dist) == cov(cars$speed/5,cars$dist/7)*(7*5)
Tentei

3
@ naught101 Eu suspeito que o ponto é que, se eu lhe disser que e nada mais, você não tem nenhum indício se X é altamente preditiva de Y ou não, ao passo que se eu lhe disser que você Cor ( X , Y ) = 0,9, você teria algo um pouco mais interpretável. Cov(X,Y)=1010 0XYCor(X,Y)=.9
guy

@guy: Isso seria covariâncias sem unidades: o PI acha que o importante é que você não pode comparar facilmente covariâncias de dois conjuntos de dados que possuem variações diferentes. Por exemplo, se tiver a relação B = 2 * A, e dois conjuntos de dados, {A1, B1} e {A2, B2}, em que A1 tem uma variância de 0,5 e A2 tem um desvio de 2, então o será muito maior que c o v ( A 1 , B 1 ) , mesmo que o relacionamento seja exatamente o mesmo. cov(A2,B2)cov(A1,B1)
naught101

3
Assim, em termos simples, correlação> covariância
Karl Morrison

58

Os requisitos desses tipos de perguntas me parecem um pouco bizarros. Aqui está um conceito / fórmula matemática , mas quero falar sobre isso em algum contexto completamente desprovido de símbolos matemáticos. Eu também acho que deveria ser afirmado que a álgebra real necessária para entender as fórmulas, eu pensaria, deveria ser ensinada à maioria das pessoas antes do ensino superior (não é necessário entender a álgebra matricial, apenas álgebra simples será suficiente).

Portanto, a princípio, em vez de ignorar completamente a fórmula e falar sobre ela em alguns tipos de analogias mágicas e heurísticas, vamos apenas olhar para a fórmula e tentar explicar os componentes individuais em pequenos passos. A diferença em termos de covariância e correlação, ao examinar as fórmulas, deve ficar clara. Considerando que, falando em termos de analogias e heurísticas, suspeito que ocultem dois conceitos relativamente simples e suas diferenças em muitas situações.

Então, vamos começar com uma fórmula para a covariância da amostra (que acabei de pegar e adotar na wikipedia);

1n1i=1n(xix¯)(yiy¯)

Para manter todos atualizados, vamos definir explicitamente todos os elementos e operações na fórmula.

  • e y i são medidas de dois atributos separados da mesma observaçãoxiyi
  • e ˉ y são os meios (ou média) de cada atributox¯y¯
  • Para , digamos que isso significa que dividimos o resultado final porn-1.1n1n-1
  • pode ser um símbolo estranho para alguns, por isso provavelmente seria útil para explicar esta operação. É simplesmente a soma de todos os i separar observações, e n representa o número total de observações.Eu=1nEun

Neste ponto, eu poderia apresentar um exemplo simples, para colocar um rosto nos elementos e operações, por assim dizer. Então, por exemplo, vamos criar uma tabela, em que cada linha corresponde a uma observação (e e y são rotulados adequadamente). É provável que esses exemplos sejam mais específicos (por exemplo, digamos que x representa idade e y representa peso), mas, para nossa discussão aqui, isso não deve importar.xyxy

x y
---
2 5
4 8
9 3
5 6
0 8

Nesse ponto, se você sentir que a operação de soma na fórmula pode não ter sido totalmente compreendida, é possível apresentá-la novamente em um contexto muito mais simples. Diga apenas apresente que é o mesmo que dizer neste exemplo;Eu=1n(xEu)

  x
 --
  2
  4
  9
  5
+ 0
 --
 20

Agora que bagunça deve ser esclarecido, e podemos trabalhar nosso caminho para a segunda parte da fórmula, . Agora, supondo que as pessoas já sabem que a média, ˉ x e ° y representam, e eu diria que, sendo hipócrita dos meus próprios comentários no início do post, pode-se apenas se referem à média em termos de heurísticas simples (por exemplo, no meio da distribuição). Pode-se então apenas executar esse processo, uma operação de cada vez. A declaração ( x i - ˉ x )(xEu-x¯)(yEu-y¯)x¯y¯(xEu-x¯)está apenas examinando os desvios / distâncias entre cada observação e a média de todas as observações para esse atributo específico. Portanto, quando uma observação estiver mais distante da média, essa operação receberá um valor mais alto. Pode-se então voltar à tabela de exemplo fornecida e simplesmente demonstrar a operação no vetor das observações.x

x x_bar (x - x_bar)
2 4     -2
4 4      0
9 4      5
5 4      1
0 4     -4

A operação é a mesma para o vetor , mas apenas para reforço, você também pode apresentar essa operação.y

y y_bar (y - y_bar)
5  6     -1
8  6      2
3  6     -3
6  6      0
8  6      2

(xEu-x¯)(yEu-y¯)(xEu-x¯)(yEu-y¯)

Observe o que acontece ao multiplicar, se duas observações estiverem a uma grande distância acima da média, a observação resultante terá um valor positivo ainda maior (o mesmo acontece se as duas observações estiverem a uma grande distância abaixo da média, como multiplicar dois negativos é igual a positivo). Observe também que se uma observação estiver alta acima da média e a outra estiver bem abaixo da média, o valor resultante será grande (em termos absolutos) e negativo (como um tempo positivo, um negativo é igual a um número negativo). Por fim, observe que, quando um valor estiver muito próximo da média para qualquer observação, multiplicar os dois valores resultará em um número pequeno. Novamente, podemos apenas apresentar esta operação em uma tabela.

(x - x_bar) (y - y_bar)  (x - x_bar)*(y - y_bar)
-2             -1                2
 0              2                0  
 5             -3              -15 
 1              0                0
-4              2               -8

n-1

(x - x_bar)*(y - y_bar)
-----------------------
   2
   0
 -15
   0
+ -8
-----
 -21

-21/(5-1) = -5.25

Nesse ponto, convém reforçar de onde os 5 vêm, mas isso deve ser tão simples quanto voltar à tabela e contar o número de observações (vamos deixar novamente a diferença entre amostra e população para outra hora).

ρ

ρ=Cov(x,y)Vumar(x)Vumar(y)

Cov(x,x)=Vumar(x)) E todos os mesmos conceitos que você introduziu com a covariância se aplicam (ou seja, se uma série tiver muitos valores muito longe de sua média, ela terá uma alta variação). Talvez observe aqui que uma série também não pode ter uma variação negativa (que deve logicamente seguir a matemática apresentada anteriormente).

Vumar(x)Vumar(y)Vumar(x)Vumar(y)

Entendo que, em algumas circunstâncias, esse nível de tratamento não seria apropriado. O Senado precisa do resumo executivo . Nesse caso, bem, você pode se referir às heurísticas simples que as pessoas têm usado em outros exemplos, mas Roma não foi construída em um dia. E ao senado que pede o resumo executivo, se você tiver tão pouco tempo, talvez deva apenas aceitar minha palavra e dispensar as formalidades de analogias e pontos de bala.


4
cov(X,Y)=E[(X-E[X])(Y-E[Y])]
Xi'an

14
+1, isso é muito bom. Eu não seria tão crítico com introduções conceituais, no entanto. Eu trabalhei com pessoas com ansiedade matemática suficiente para mostrar que uma fórmula provavelmente as perderá. Normalmente, eu os acelero com a intuição primeiro e depois passo pela matemática de maneira simples e completa (como você faz aqui) depois . Dessa forma, eles estão apenas aprendendo como a matemática representa o que já sabem e, se abandonarem mentalmente, ainda aprenderão as grandes idéias. Como ponto tangencial, trabalho com a matemática no Excel, que acho muito boa para isso.
gung

2
NN-1(xEu-x¯)(yEu-y¯)ρraqui , por exemplo.
gung

Obrigado @gung, mudei o erro de digitação na primeira fórmula e, em seguida, pela correlação, peguei a raiz quadrada das variâncias multiplicadas (em vez de definir o desvio padrão). Ao usar rho versus outro símbolo, não me sinto muito forte de qualquer maneira. Se eu estivesse ensinando e tivesse um livro, provavelmente desejaria apenas me conformar com o texto. Espero que mais um símbolo grego não cause caos!
Andy W

1
Se eu pudesse votar sua resposta 100 vezes, eu o faria. Que explicação terrivelmente lúcida!
Julian

10

Vumar[x]Vumar[y]

Ou seja, a correlação é simplesmente uma representação de covariância, portanto o resultado deve ficar entre -1 (perfeitamente inversamente correlacionado) e +1 (perfeitamente correlacionado positivamente), observando que um valor próximo de zero significa que duas variáveis ​​não estão correlacionadas.

A covariância é ilimitada e carece de um contexto quando comparada a outras covariâncias. Ao normalizar / ajustar / padronizar as covariâncias em uma correlação, os conjuntos de dados podem ser comparados mais facilmente.

Como você pode imaginar, existem diferentes maneiras pelas quais uma estatística (como covariância) pode ser normalizada / padronizada. A fórmula matemática para a relação entre correlação e covariância reflete simplesmente o uso de estatísticos da convenção (ou seja, ajustando de acordo com seus desvios-padrão):

r=cov(x,y)Vumar[x]Vumar[y]

5

Se você está familiarizado com a idéia de centralizar e padronizar, x-xbar é centralizar x em sua média. O mesmo se aplica a y. Portanto, a covariância simplesmente centraliza os dados. A correlação, no entanto, não apenas centraliza os dados, mas também escala usando o desvio padrão (padronizar). A multiplicação e a soma são o produto escalar dos dois vetores e mostra como paralelo esses dois vetores se comparam (a projeção de um vetor no outro). A divisão de (n-1) ou o valor esperado é escalonado para o número de observações. Pensamentos?



-3

A correlação é dimensionada para ficar entre -1 e +1, dependendo da existência de correlação positiva ou negativa, e é adimensional. A covariância, no entanto, varia de zero, no caso de duas variáveis ​​independentes, a Var (X), no caso em que os dois conjuntos de dados são iguais. As unidades de COV (X, Y) são as unidades de X vezes as unidades de Y.


6
A covariância pode ser negativa, por isso não é limitada a 0. Também não está claro para mim o que você quer dizer com sua última frase, gostaria The units of COV(X,Y) are the units of X times the units of Y.de elaborar?
Andy W

Cov(X,Y)=E[(X-E[X])(Y-E[Y])]

1
@ naught101, as unidades passam? Meu comentário inicial a Nagaraj foi o de obter maior clareza, pois declarações ambíguas como a citada que eu afirmaria não são úteis para ninguém. Então, por que não podemos interpretar a covariância como "as unidades de x multiplicadas pelas unidades de y", porque não é isso que é. Uma afirmação potencialmente mais correta (para a covariância da amostra) seria a " média dos produtos dos desvios médios ". cont ...
Andy W

1
Agora, os desvios médios certamente não são os mesmos que as unidades originais, e a estatística resultante para a covariância não depende simplesmente da média e da variação dos atributos originais. A covariância, por si só, não diz nada sem conhecer a variação dos atributos originais.
Andy W
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.