Então, se for esse o caso, independência estatística significa automaticamente falta de causalidade?
Não, e aqui está um exemplo simples de contador com um normal multivariado,
set.seed(100)
n <- 1e6
a <- 0.2
b <- 0.1
c <- 0.5
z <- rnorm(n)
x <- a*z + sqrt(1-a^2)*rnorm(n)
y <- b*x - c*z + sqrt(1- b^2 - c^2 +2*a*b*c)*rnorm(n)
cor(x, y)
Com o gráfico correspondente,
Aqui temos que e são marginalmente independente (no caso normal multivariada, correlação zero implica a independência). Isso acontece porque o caminho da porta traseira via cancela exatamente o caminho direto de para , ou seja, . Assim, . No entanto, causa diretamente , e temos , que é diferente de .xyzxycov(x,y)=b−a∗c=0.1−0.1=0E[Y|X=x]=E[Y]=0xyE[Y|do(X=x)]=bxE[Y]=0
Associações, intervenções e contrafactuais
Eu acho que é importante fazer alguns esclarecimentos aqui sobre associações, intervenções e contrafactuais.
Modelos causais envolvem afirmações sobre o comportamento do sistema: (i) sob observações passivas, (ii) sob intervenções e (iii) contrafatuais. E a independência em um nível não se traduz necessariamente no outro.
Como mostra o exemplo acima, não podemos ter associação entre e , ou seja, , e ainda assim o caso de manipulações em alterar a distribuição de , ou seja, .XYP(Y|X)=P(Y)XYP(Y|do(x))≠P(Y)
Agora, podemos dar um passo adiante. Podemos ter modelos causais em que intervir em não altera a distribuição populacional de , mas isso não significa falta de causação contrafactual! Ou seja, mesmo que , para cada indivíduo, seu resultado teria sido diferente se você tivesse alterado o dele . Este é precisamente o caso descrito por user20160, bem como na minha resposta anterior aqui.XYP(Y|do(x))=P(Y)YX
Esses três níveis formam uma hierarquia de tarefas de inferência causal , em termos das informações necessárias para responder a consultas em cada um deles.