Estou obtendo alguns resultados desconcertantes para a correlação de uma soma com uma terceira variável quando os dois preditores estão correlacionados negativamente. O que está causando esses resultados desconcertantes?
Exemplo 1: Correlação entre a soma de duas variáveis e uma terceira variável
Considere a fórmula 16.23 na página 427 do texto de Guildford de 1965, mostrado abaixo.
Descoberta desconcertante: se ambas as variáveis se correlacionam .2 com a terceira variável e -.7 entre si, a fórmula resulta em um valor de .52. Como a correlação do total com a terceira variável pode ser 0,52 se as duas variáveis correlacionam apenas 0,2 com a terceira variável?
Exemplo 2: Qual é a correlação múltipla entre duas variáveis e uma terceira variável?
Considere a fórmula 16.1 na página 404 do texto de Guildford em 1965 (mostrado abaixo).
Descoberta desconcertante: A mesma situação. Se ambas as variáveis se correlacionarem .2 com a terceira variável e -.7 entre si, a fórmula resultará em um valor de .52. Como a correlação do total com a terceira variável pode ser 0,52 se as duas variáveis correlacionam apenas 0,2 com a terceira variável?
Tentei uma rápida simulação de Monte Carlo e ela confirma os resultados das fórmulas de Guilford.
Mas se os dois preditores preveem 4% da variância da terceira variável, como uma soma deles pode prever 1/4 da variância?
Fonte: Estatística Fundamental em Psicologia e Educação, 4ª ed., 1965.
ESCLARECIMENTO
A situação com a qual estou lidando envolve prever o desempenho futuro de cada pessoa com base na avaliação de suas habilidades agora.
Os dois diagramas de Venn abaixo mostram minha compreensão da situação e devem esclarecer minha perplexidade.
Esse diagrama de Venn (Fig. 1) reflete a ordem zero r = 0,2 entre x1 e C. No meu campo, existem muitas variáveis preditivas que modestamente prevêem um critério.
Este diagrama de Venn (Fig. 2) reflete dois desses preditores, x1 e x2, cada um prevendo C em r = 0,2 e os dois preditores correlacionados negativamente, r = - .7.
Não consigo imaginar uma relação entre os dois preditores r = 0,2 que os levariam juntos a prever 25% da variação de C.
Busco ajuda para entender a relação entre x1, x2 e C.
Se (como sugerido por alguns em resposta à minha pergunta) x2 atua como uma variável supressora para x1, que área no segundo diagrama de Venn está sendo suprimida?
Se um exemplo concreto for útil, podemos considerar x1 e x2 como duas habilidades humanas e C como um GPA de 4 anos na faculdade, 4 anos depois.
Estou tendo problemas para imaginar como uma variável supressora poderia fazer com que a variação explicada de 8% dos dois r = 0,2 ordem zero rs aumentasse e explicasse 25% da variação de C. Um exemplo concreto seria uma resposta muito útil.