Um causal modelo estrutural probabilística (SCM) é definido como um tuplo onde L é um conjunto de variáveis exógenas, V um conjunto de variáveis endógenas, F é um conjunto de equações estruturais que determina os valores de cada variável endógena e P ( U ) uma distribuição de probabilidade sobre o domínio de UM=⟨U,V,F,P(U)⟩UVFP(U)U .
Em uma SCM que representam o efeito de uma intervenção sobre uma variável por um submodelo H x = ⟨ L , V , M x , P ( L ) ⟩ onde F X indica que a equação estrutural para X é substituído pelo novo equação intervencionista . Por exemplo, a intervenção atômica de definir a variável X para um valor específico x --- geralmente denotado por d o ( X = x ) --- consiste em substituir a equação por XXMx=⟨U,V,Fx,P(U)⟩FxXXxdo(X=x)Xcom a equação X=x .
Para esclarecer as ideias, imagine um modelo causal estrutural não paramétrico definido pelas seguintes equações estruturais:M
Z=UzX=f(Z,Ux)Y=g(X,Z,Uy)
Onde os distúrbios têm alguma distribuição de probabilidade P ( U ) . Isso induz uma distribuição de probabilidade sobre as variáveis endógenas P M ( Y , Z , X ) e, em particular, uma distribuição condicional de Y, dado X , P M ( Y | X ) .UP(U)PM(Y,Z,X)YXPM(Y|X)
But notice PM(Y|X) is the "observational" distribution of Y given X in the context of model M. What would be the effect on the distribution of Y if we intervened on X setting it to x? This is nothing more than the probability distribution of Y induced by the modified model Mx:
Z=UzX=xY=g(X,Z,Uy)
YX=xMxPMx(Y|X=x)P(Y|do(X=x))do(X=x) operator makes it clear we are computing the probability of Y in a submodel where there is an intervention setting X equal to x, which corresponds to overriding the structural equation of X with the equation X=x.
The goal of many analyses is to find how to express the interventional distribution P(Y|do(X)) in terms of the joint probability of the observational (pre-intervention) distribution.
do-calculus
The do-calculus is not the same thing as the do(⋅) operator. The do-calculus consists of three inference rules to help "massage" the post-intervention probability distribution and get P(Y|do(X)) in terms of the observational (pre-intervention) distribution. Hence, instead of doing derivations by hand, such as in this question, you can let an algorithm perform the derivations and automatically give you a nonparametric expression for identifying your causal query of interest (and the do-calculus is complete for recursive nonparametric structural causal models).