Tanto a correlação quanto a covariância medem a associação linear entre duas variáveis fornecidas e não tem obrigação de detectar nenhuma outra forma de associação.
Portanto, essas duas variáveis podem estar associadas de várias outras formas não lineares e a covariância (e, portanto, a correlação) não conseguiu distinguir dos casos independentes.
Como muito didáctico, artificial e não realista exemplo, pode-se considerar XX de modo a que P ( X = x ) = 1 / 3P(X=x)=1/3 para X = - 1 , 0 , 1x=−1,0,1 e também considerar Y = X 2Y=X2 . Observe que eles não são apenas associados, mas um é função do outro. No entanto, sua covariância é 0, pois sua associação é ortogonal à associação que a covariância pode detectar.
EDITAR
De fato, como indicado por @whuber, a resposta original acima foi na verdade um comentário sobre como a afirmação não é universalmente verdadeira se ambas as variáveis não eram necessariamente dicotômicas. Foi mal!
Então vamos matemática. (O equivalente local do "Traje!" De Barney Stinson)
Caso particular
Se XX e YY eram dicotômicos, você pode assumir, sem perda de generalidade, que ambos assumem apenas os valores 00 e 11 com probabilidades arbitrárias pp , qq e rr dados por
P ( X = 1 ) = p ∈ [ 0 , 1 ] P ( Y = 1 ) = q ∈ [ 0 , 1 ] P ( X = 1 , Y= 1 ) = r ∈ [ 0 , 1 ] ,
P(X=1)=p∈[0,1]P(Y=1)=q∈[0,1]P(X=1,Y=1)=r∈[0,1],
o qual caracterizar completamente a distribuição conjunta de
XXe
YY. Tomando a dica de @ DilipSarwate, observe que esses três valores são suficientes para determinar a distribuição conjunta de
(X,Y)(X,Y), já que
P ( X = 0 , Y = 1 )= P ( Y = 1 ) - P ( X = 1 , Y = 1 ) = q - r P ( X = 1 , Y = 0 )= P ( X = 1 ) - P ( X = 1 , Y = 1 ) = p - r P ( X = 0 , Y = 0 )= 1 - P ( X = 0 , Y = 1 ) - P ( X = 1 , Y = 0 ) - P ( X = 1 , Y = 1 )= 1 - ( q - r ) - ( p - r ) - r = 1 - p - q - r .
(Em uma nota lateral,éclaro que
rdeve respeitar
p-r∈[0,1],
q-r∈[0,1]e
1-p-q-r∈[P(X=0,Y=1)P(X=1,Y=0)P(X=0,Y=0)=P(Y=1)−P(X=1,Y=1)=q−r=P(X=1)−P(X=1,Y=1)=p−r=1−P(X=0,Y=1)−P(X=1,Y=0)−P(X=1,Y=1)=1−(q−r)−(p−r)−r=1−p−q−r.
rp−r∈[0,1]q−r∈[0,1]0 , 1 ] além de
r ∈ [ 0 , 1 ] , ou seja,
r ∈ [ 0 , min ( p , q , 1 - p - q ) ] .)
1−p−q−r∈[0,1]r∈[0,1]r∈[0,min(p,q,1−p−q)]
Observe que r = P ( X = 1 , Y = 1 ) pode ser igual ao produto p ⋅ q = P ( X = 1 ) P ( Y = 1 ) , o que tornaria X e Y independentes, pois
P ( X = 0 , Y = 0 )r=P(X=1,Y=1)p⋅q=P(X=1)P(Y=1)XY= 1 - p - q - p q = ( 1 - p ) ( 1 - q ) = P ( X = 0 ) P ( Y = 0 ) P ( X = 1 , Y = 0 )= p - p q = p ( 1 - q ) = P ( X = 1 ) P ( Y = 0 ) P ( X = 0 , Y = 1 )= q - p q = ( 1 - p ) q = P ( X = 0 ) P ( Y = 1 ) .
P(X=0,Y=0)P(X=1,Y=0)P(X=0,Y=1)=1−p−q−pq=(1−p)(1−q)=P(X=0)P(Y=0)=p−pq=p(1−q)=P(X=1)P(Y=0)=q−pq=(1−p)q=P(X=0)P(Y=1).
Sim, r pode ser igual a p q , MAS pode ser diferente, desde que respeite os limites acima.rpq
Bem, a partir da distribuição conjunta acima, teríamos
E ( X )= 0 ⋅ P ( X = 0 ) + 1 ⋅ P ( X = 1 ) = P ( X = 1 ) = p E ( Y )= 0 ⋅ P ( Y = 0 ) + 1 ⋅ P ( Y = 1 ) = P ( Y = 1 ) = q E ( X Y )= 0 ⋅ P ( X Y = 0 ) + 1 ⋅ P ( X Y = 1 )=P(XY=1)=P(X=1,Y=1)=rCov(X,Y)=E(XY)−E(X)E(Y)=r−pq
E(X)E(Y)E(XY)Cov(X,Y)=0⋅P(X=0)+1⋅P(X=1)=P(X=1)=p=0⋅P(Y=0)+1⋅P(Y=1)=P(Y=1)=q=0⋅P(XY=0)+1⋅P(XY=1)=P(XY=1)=P(X=1,Y=1)=r=E(XY)−E(X)E(Y)=r−pq
Now, notice then that XX and YY are independent if and only if Cov(X,Y)=0Cov(X,Y)=0. Indeed, if XX and YY are independent, then P(X=1,Y=1)=P(X=1)P(Y=1)P(X=1,Y=1)=P(X=1)P(Y=1), which is to say r=pqr=pq. Therefore, Cov(X,Y)=r−pq=0Cov(X,Y)=r−pq=0; and, on the other hand, if Cov(X,Y)=0Cov(X,Y)=0, then r−pq=0r−pq=0, which is to say r=pqr=pq. Therefore, XX and YY are independent.
General Case
About the without loss of generality clause above, if XX and YY were distributed otherwise, let's say, for a<ba<b and c<dc<d,
P(X=b)=pP(Y=d)=qP(X=b,Y=d)=r
P(X=b)=pP(Y=d)=qP(X=b,Y=d)=r
then
X′X′ and
Y′Y′ given by
X′=X−ab−aandY′=Y−cd−cX′=X−ab−aandY′=Y−cd−c
would be distributed just as characterized above, since
X=a⇔X′=0,X=b⇔X′=1,Y=c⇔Y′=0andY=d⇔Y′=1.X=a⇔X′=0,X=b⇔X′=1,Y=c⇔Y′=0andY=d⇔Y′=1.
So
XX and
YY are independent
if and only if X′X′ and
Y′Y′ are independent.
Also, we would have
E(X′)=E(X−ab−a)=E(X)−ab−aE(Y′)=E(Y−cd−c)=E(Y)−cd−cE(X′Y′)=E(X−ab−aY−cd−c)=E[(X−a)(Y−c)](b−a)(d−c)=E(XY−Xc−aY+ac)(b−a)(d−c)=E(XY)−cE(X)−aE(Y)+ac(b−a)(d−c)Cov(X′,Y′)=E(X′Y′)−E(X′)E(Y′)=E(XY)−cE(X)−aE(Y)+ac(b−a)(d−c)−E(X)−ab−aE(Y)−cd−c=[E(XY)−cE(X)−aE(Y)+ac]−[E(X)−a][E(Y)−c](b−a)(d−c)=[E(XY)−cE(X)−aE(Y)+ac]−[E(X)E(Y)−cE(X)−aE(Y)+ac](b−a)(d−c)=E(XY)−E(X)E(Y)(b−a)(d−c)=1(b−a)(d−c)Cov(X,Y).
E(X′)E(Y′)E(X′Y′)Cov(X′,Y′)=E(X−ab−a)=E(X)−ab−a=E(Y−cd−c)=E(Y)−cd−c=E(X−ab−aY−cd−c)=E[(X−a)(Y−c)](b−a)(d−c)=E(XY−Xc−aY+ac)(b−a)(d−c)=E(XY)−cE(X)−aE(Y)+ac(b−a)(d−c)=E(X′Y′)−E(X′)E(Y′)=E(XY)−cE(X)−aE(Y)+ac(b−a)(d−c)−E(X)−ab−aE(Y)−cd−c=[E(XY)−cE(X)−aE(Y)+ac]−[E(X)−a][E(Y)−c](b−a)(d−c)=[E(XY)−cE(X)−aE(Y)+ac]−[E(X)E(Y)−cE(X)−aE(Y)+ac](b−a)(d−c)=E(XY)−E(X)E(Y)(b−a)(d−c)=1(b−a)(d−c)Cov(X,Y).
So
Cov(X,Y)=0Cov(X,Y)=0 if and only Cov(X′,Y′)=0Cov(X′,Y′)=0.
=D