O problema com correlações em observações completas aos pares
No caso que você descreve, a questão principal é a interpretação. Como você está usando observações completas aos pares, na verdade está analisando conjuntos de dados ligeiramente diferentes para cada uma das correlações, dependendo de quais observações estão faltando.
Considere o seguinte exemplo:
a <- c(NA,NA,NA, 5, 6, 3, 7, 8, 3)
b <- c(2, 8, 3, NA,NA,NA, 6, 9, 5)
c <- c(2, 9, 6, 3, 2, 3, NA,NA,NA)
Três variáveis no conjunto de dados, a
, b
, e c
, cada um tem alguns valores em falta. Se você calcular correlações em pares de variáveis aqui, poderá usar casos que não possuem valores ausentes para as duas variáveis em questão. Nesse caso, isso significa que você analisará apenas os três últimos casos para a correlação entre a
e b
, apenas os três primeiros para a correlação entre b
e c
, etc.
O fato de você estar analisando casos completamente diferentes quando calcula cada correlação significa que o padrão resultante de correlações pode parecer sem sentido. Vejo:
> cor(a,b, use = "pairwise.complete.obs")
[1] 0.8170572
> cor(b,c, use = "pairwise.complete.obs")
[1] 0.9005714
> cor(a,c, use = "pairwise.complete.obs")
[1] -0.7559289
Isto parece uma contradição lógica --- a
e b
estão fortemente correlacionados positivamente, e b
e c
são também fortemente correlacionada positivamente, de modo que seria de esperar a
e c
de ser positivamente correlacionada bem, mas há realmente uma forte associação na direção oposta. Você pode ver por que muitos analistas não gostam disso.
Edite para incluir esclarecimentos úteis do whuber:
Observe que parte do argumento depende do significado da correlação "forte". É bem possível, a
e b
assim como, b
e c
estar "fortemente correlacionado positivamente", enquanto existe uma "forte associação na direção oposta" entre a
e c
, mas não tão extrema quanto neste exemplo. O cerne da questão é que a matriz estimada de correlação (ou covariância) pode não ser positiva-definida: é assim que se deve quantificar "forte".
O problema com o tipo de falta
Você pode estar pensando consigo mesmo: "Bem, não há problema em assumir que o subconjunto de casos que tenho disponível para cada correlação segue mais ou menos o mesmo padrão que eu obteria se tivesse dados completos?" E sim, isso é verdade --- não há nada de fundamentalmente errado em calcular uma correlação em um subconjunto de seus dados (embora você perca precisão e potência, é claro, devido ao tamanho menor da amostra), desde que os dados disponíveis sejam aleatórios amostra de todos os dados que estariam lá se você não tivesse nenhuma falta.
Quando a falta é puramente aleatória, isso se chama MCAR (falta completamente aleatória). Nesse caso, analisar o subconjunto de dados que não possui falta não influencia sistematicamente seus resultados e seria improvável (mas não impossível) obter o tipo de padrão de correlação maluco que mostrei no exemplo acima.
Quando a sua falta é sistemática de alguma forma (MAR ou NI, muitas vezes abreviada, delineando dois tipos diferentes de falta sistemática), você tem problemas muito mais sérios, tanto em termos de possível introdução de viés em seus cálculos quanto em sua capacidade de generalizar sua resultados para a população de interesse (porque a amostra que você está analisando não é uma amostra aleatória da população, mesmo que seu conjunto de dados completo fosse).
Há um monte de grandes recursos disponíveis para aprender sobre a falta de dados e como lidar com ele, mas a minha recomendação é Rubin:
um clássico ,
e um artigo mais recente