A covariância de duas variáveis foi calculada como -150. o que as estatísticas dizem sobre o relacionamento entre duas variáveis?
A covariância de duas variáveis foi calculada como -150. o que as estatísticas dizem sobre o relacionamento entre duas variáveis?
Respostas:
Para acrescentar à resposta de Łukasz Deryło : como ele escreve, uma covariância de -150 implica um relacionamento negativo. Se este é um relacionamento forte ou fraco, depende das variações das variáveis. Abaixo, planto exemplos para um relacionamento forte (cada variável separada tem uma variação de 200, então a covariância é grande, em termos absolutos, comparada à variação) e para um relacionamento fraco (cada variação é de 2000, então a covariância é pequena , em termos absolutos, em comparação com a variância).
variance <- 200
:variance <- 2000
:library(MASS)
nn <- 100
epsilon <- 0.1
variance <- 2000 # weak relationship
opar <- par(mfrow=c(2,2))
for ( ii in 1:4 ) {
while ( TRUE ) {
dataset <- mvrnorm(n=100,mu=c(0,0),Sigma=rbind(c(2000,-150),c(-150,2000)))
if ( abs(cov(dataset)[1,2]-(-150)) < epsilon ) break
}
plot(dataset,pch=19,xlab="",ylab="",main=paste("Covariance:",cov(dataset)[1,2]))
}
par(opar)
Como observa whuber, a covariância em si não nos diz muito sobre um conjunto de dados. Para ilustrar, vou pegar o quarteto de Anscombe e modificá-lo um pouco. Observe como gráficos de dispersão muito diferentes podem ter a mesma covariância (arredondada) de -150:
anscombe.mod <- anscombe
anscombe.mod[,c("x1","x2","x3","x4")] <- sqrt(150/5.5)*anscombe[,c("x1","x2","x3","x4")]
anscombe.mod[,c("y1","y2","y3","y4")] <- -sqrt(150/5.5)*anscombe[,c("y1","y2","y3","y4")]
opar <- par(mfrow=c(2,2))
with(anscombe.mod,plot(x1,y1,pch=19,main=paste("Covariance:",round(cov(x1,y1),0))))
with(anscombe.mod,plot(x2,y2,pch=19,main=paste("Covariance:",round(cov(x2,y2),0))))
with(anscombe.mod,plot(x3,y3,pch=19,main=paste("Covariance:",round(cov(x3,y3),0))))
with(anscombe.mod,plot(x4,y4,pch=19,main=paste("Covariance:",round(cov(x4,y4),0))))
par(opar)
xx <- yy <- seq(0,100,by=10)
yy[9] <- -336.7
plot(xx,yy,pch=19,main=paste("Covariance:",cov(xx,yy)))
Diz apenas que o relacionamento é negativo. Isso significa que valores baixos de uma variável tendem a ocorrer junto com valores altos da outra.
Você também pode executar o teste de significância da correlação.