Qual é a definição matemática de uma relação causal entre duas variáveis aleatórias?
Matematicamente, um modelo causal consiste em relacionamentos funcionais entre variáveis. Por exemplo, considere o sistema de equações estruturais abaixo:
x=fx(ϵx)y=fy(x,ϵy)
Isso significa que x determina funcionalmente o valor de y (se você intervir em x isso altera os valores de y ), mas não o contrário. Graficamente, isso geralmente é representado por x→y , o que significa que x entra na equação estrutural de y. Como adendo, você também pode expressar um modelo causal em termos de distribuições conjuntas de variáveis contrafactuais, matematicamente equivalentes a modelos funcionais .
Dada uma amostra da distribuição conjunta de duas variáveis aleatórias X e Y, quando diríamos que X causa Y?
Às vezes (ou na maioria das vezes) você não tem conhecimento sobre a forma das equações estruturais fx , fy , nem mesmo se x→y ou y→x . A única informação que você tem é a distribuição de probabilidade conjunta p(y,x) (ou amostras dessa distribuição).
Isso leva à sua pergunta: quando posso recuperar a direção da causalidade apenas a partir dos dados? Ou, mais precisamente, quando posso recuperar se x entra na equação estrutural de y ou vice-versa, apenas a partir dos dados?
Obviamente, sem suposições fundamentalmente não testáveis sobre o modelo causal, isso é impossível . O problema é que vários modelos causais diferentes podem implicar a mesma distribuição de probabilidade conjunta das variáveis observadas. O exemplo mais comum é um sistema linear causal com ruído gaussiano.
Mas, sob algumas suposições causais, isso pode ser possível - e é nisso que a literatura de descoberta causal trabalha. Se você não tem exposição prévia a esse tópico, pode começar com Elements of Causal Inference de Peters, Janzing e Scholkopf, bem como no capítulo 2 de Causality de Judea Pearl. Temos um tópico aqui no CV para referências sobre descoberta causal , mas ainda não temos muitas referências listadas lá.
Portanto, não há apenas uma resposta para sua pergunta, pois depende das suposições feitas. O artigo que você menciona cita alguns exemplos, como assumir um modelo linear com ruído não gaussiano . Este caso é conhecido como LINGAN (abreviação de modelo acíclico não gaussiano linear), aqui está um exemplo em R
:
library(pcalg)
set.seed(1234)
n <- 500
eps1 <- sign(rnorm(n)) * sqrt(abs(rnorm(n)))
eps2 <- runif(n) - 0.5
x2 <- 3 + eps2
x1 <- 0.9*x2 + 7 + eps1
# runs lingam
X <- cbind(x1, x2)
res <- lingam(X)
as(res, "amat")
# Adjacency Matrix 'amat' (2 x 2) of type ‘pag’:
# [,1] [,2]
# [1,] . .
# [2,] TRUE .
Observe aqui que temos um modelo causal linear com ruído não gaussiano, em que x2 causa x1 e lingam recupera corretamente a direção causal. No entanto, observe que isso depende criticamente das suposições da LINGAM.
No caso do artigo que você cita, eles fazem essa suposição específica (veja o "postulado"):
Se x→y , o comprimento mínimo da descrição do mecanismo de mapeamento de X para Y é independente do valor de X, enquanto o comprimento mínimo da descrição do mecanismo de mapeamento de Y para X depende do valor de Y.
Observe que isso é uma suposição. Isso é o que chamaríamos de "condição de identificação". Essencialmente, o postulado impõe restrições à distribuição conjunta p(x,y) . Ou seja, o postulado diz que se x→y certas restrições se mantêm nos dados e se y→x outras restrições se mantêm. Esses tipos de restrições que têm implicações testáveis (impõem restrições a p(y,x) ) é o que permite a recuperação direcional de dados observacionais.
Como observação final, os resultados da descoberta causal ainda são muito limitados e, dependendo de fortes suposições, tome cuidado ao aplicá-los no contexto do mundo real.