Por que esse conjunto de dados não tem covariância?


8

Meu entendimento de como a covariância funciona é que os dados correlacionados devem ter uma covariância um pouco alta. Me deparei com uma situação em que meus dados parecem correlacionados (como mostrado no gráfico de dispersão), mas a covariância é quase zero. Como a covariância dos dados pode ser zero se eles estão correlacionados?

import numpy as np
x1 = np.array([ 0.03551153,  0.01656052,  0.03344669,  0.02551755,  0.02344788,
        0.02904475,  0.03334179,  0.02683399,  0.02966126,  0.03947681,
        0.02537157,  0.03015175,  0.02206443,  0.03590149,  0.03702152,
        0.02697212,  0.03777607,  0.02468797,  0.03489873,  0.02167536])
x2 = np.array([ 0.0372599 ,  0.02398212,  0.03649548,  0.03145494,  0.02925334,
        0.03328783,  0.03638871,  0.03196318,  0.03347346,  0.03874528,
        0.03098697,  0.03357531,  0.02808358,  0.03747998,  0.03804655,
        0.03213286,  0.03827639,  0.02999955,  0.0371424 ,  0.0279254 ])
print np.cov(x1, x2)

array([[  3.95773132e-05,   2.59159589e-05],
       [  2.59159589e-05,   1.72006225e-05]])

insira a descrição da imagem aqui


4
Dica: O que acontece quando você olha para a correlação? Qual é a diferença entre covariância e correlação?
aleshing

2
Se você estiver medindo números que parecem pequenos ou próximos em uma escala específica, as diferenças entre eles também parecerão pequenas e os produtos das diferenças parecerão ainda menores. Tente multiplicar todos os seus dados por e refazer os cálculos; a covariância deve ser vezes maior10001000000
Henry

Respostas:


14

A magnitude da covariância depende da magnitude dos dados e da proximidade com que esses pontos estão espalhados pela média desses dados. É fácil ver quando você olha para a fórmula:

covx,y=(xEu-x¯)(yEu-y¯)n-1 1

No seu caso, o desvio dos dados x1e x2aponta para a média de x1e x2são:

x1-mean(x1)
 [1]  0.006043341 -0.012907669  0.003978501 -0.003950639 -0.006020309 -0.000423439  0.003873601
 [8] -0.002634199  0.000193071  0.010008621 -0.004096619  0.000683561 -0.007403759  0.006433301
[15]  0.007553331 -0.002496069  0.008307881 -0.004780219  0.005430541 -0.007792829

x2-mean(x2)
 [1]  0.0039622385 -0.0093155415  0.0031978185 -0.0018427215 -0.0040443215 -0.0000098315
 [7]  0.0030910485 -0.0013344815  0.0001757985  0.0054476185 -0.0023106915  0.0002776485
[13] -0.0052140815  0.0041823185  0.0047488885 -0.0011648015  0.0049787285 -0.0032981115
[19]  0.0038447385 -0.0053722615

Agora, se você multiplicar esses dois vetores, obviamente obtém números muito pequenos:

(x1-mean(x1)) * (x2-mean(x2))
 [1] 2.394516e-05 1.202419e-04 1.272252e-05 7.279927e-06 2.434807e-05 4.163041e-09 1.197349e-05
 [8] 3.515290e-06 3.394159e-08 5.452315e-05 9.466023e-06 1.897897e-07 3.860380e-05 2.690611e-05
[15] 3.586993e-05 2.907425e-06 4.136268e-05 1.576570e-05 2.087901e-05 4.186512e-05

Agora pegue a soma e divida por e você tem a covariância:n-1 1

sum((x1-mean(x1)) * (x2-mean(x2))) / (length(x1)-1)
[1] 2.591596e-05

Essa é a razão pela qual a magnitude da covariância não diz muito sobre a força de como x1e x2co-varia. Padronizando (ou normalizando) a covariância, que é dividida pelo produto do desvio padrão de ( x1e x2muito semelhante à covariância 2.609127e-05),

r=covx,ysxsy=(x1 1-x¯)(yEu-y¯)(n-1 1)sxsy

você obtém o alto coeficiente de correlação, de , o que confirma o que você pode ver em seu gráfico.r=0,99


7

Vamos falar sobre o que pode ser visto de uma rápida olhada no enredo e em algumas verificações de razoabilidade (esses são os tipos de ações que se pode fazer quando se olha para os dados, basta estar armado com alguns fatos básicos):

nn-1 1

10-4

Conseqüentemente, os valores observados das variações em sua saída fazem sentido; ambos são menos que isso, mas mais que um décimo disso.

1 14

0,02(0,02)2/4=10-4

Dessa análise muito grosseira, nada parece surpreendente.


0,0230,0158.6×10-5

2.9×10-5

2.9×10-52.6×10-5

(Não é tão ruim para um cálculo rápido do verso do envelope, começando com intervalos de dois números significativos!)

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.