Inconfundimento no Modelo Causal de Rubin

Ao implementar o modelo causal de Rubin, uma das suposições (não testáveis) de que precisamos é a falta de confiança, o que significa

(Y (0 0), Y (1 1)) ⊥ T | X

$(Y(0),Y(1))\perp T|X$

Onde o LHS é o contrafactual, o T é o tratamento e X são as covariáveis que controlamos.

Eu estou querendo saber como descrever isso para uma pessoa que não sabe muito sobre o Modelo Causal de Rubin. Entendo por que teoricamente precisamos dessa suposição, mas não tenho certeza conceitualmente sobre por que isso é importante. Especificamente, se T é o tratamento, o resultado potencial não deveria ser muito dependente dele? Assim, se tivermos um estudo randomizado, controlado, em seguida, automaticamente, . Por que isso se aplica? $(Y(0),Y(1))\perp T$

Como você descreveria o pressuposto de infidelidade / ignorabilidade para alguém que não estudou o RCM?

causality treatment-effect confounding

— RayVelcoro
fonte

Quanto à correspondência do escore de propensão, primeiro é fácil provar que a distribuição condicional de

coincide com a distribuição condicional de

. Portanto, a falta de confiança / ignorabilidade implica que

X | T = 1, p (X) = q

$X\ |\ T=1,p(X)=q$

X | T = 0, p (X) = q

$X\ |\ T=0,p(X)=q$

(Y (0), Y (1)) ⊥ T | p (X)

$(Y(0),Y(1))\ \perp\ T\ |\ p(X)$ . Para ensaios randomizados,

deve ser independente de qualquer outra variável que participe dos ensaios.

T

$T$

— Viktor

Como você descreveria o pressuposto de infidelidade / ignorabilidade para alguém que não estudou o RCM?

Em relação à intuição para alguém que não seja versado em inferência causal, acho que é aqui que você pode usar gráficos. Eles são intuitivos no sentido de mostrar visualmente "fluxo" e também deixarão claro o que a ignorabilidade significa substancialmente no mundo real.

A ignorabilidade condicional é equivalente a afirmar que satisfaz o critério de backdoor. Portanto, em termos intuitivos, você pode dizer à pessoa que as covariáveis que você escolheu para "bloqueiam" o efeito de causas comuns de e (e não abrem outras associações espúrias). $X$ $X$ $T$ $Y$

Se as únicas variáveis de confusão concebíveis do seu problema são as variáveis no próprio , isso é trivial de explicar. Você acabou de dizer que, como contém todas as causas comuns de e , é tudo o que você precisa controlar. Então você poderia dizer a ela que é assim que você vê o mundo: $X$ $X$ $T$ $Y$

O caso mais interessante é quando pode haver outros fatores de confusão plausíveis por aí. Para ser mais específico, você pode até mesmo pedir a pessoa para citar um fator de confusão potencial do seu problema - isto é, pedir-lhe para nomear algo que faz com que ambos e , mas não é em . $T$ $Y$ $X$

Dizem que os nomes de pessoas uma variável . Então você pode dizer a essa pessoa que o que sua suposição ignorability condicional efetivamente significa é que você acha irá "bloquear" o efeito de em e / ou . $Z$ $X$ $Z$ $T$ $Y$

E você deve dar a ela uma razão substantiva para achar que isso é verdade. Existem muitos gráficos que podem representar isso, mas digamos que você tenha essa explicação: " não influenciará os resultados porque, embora cause e , seu efeito em passa apenas por , pelo qual estamos controlando". $Z$ $Z$ $T$ $Y$ $T$ $X$ E então mostre este gráfico:

E você poderia pensar em outros cofundadores e mostrar a ela como está bloqueando visualmente nos gráficos. $X$

Agora, respondendo às perguntas conceituais:

Especificamente, se T é o tratamento, o resultado potencial não deveria ser muito dependente dele? Além disso, se tivermos um estudo controlado randomizado, automaticamente,. Por que isso se aplica?

$T$

É também por isso que isso ocorre automaticamente quando você seleciona aleatoriamente. Se você escolher os tratados aleatoriamente, isso significa que você não verificou as respostas em potencial ao tratamento para selecioná-las.

Para complementar a resposta, vale a pena notar que é realmente difícil entender a ignorabilidade sem falar sobre o processo causal, isto é, sem invocar equações estruturais / modelos gráficos. Na maioria das vezes, você vê pesquisadores apelando à idéia de "o tratamento foi aleatório", mas sem justificar por que isso é ou por que isso é plausível usando mecanismos e processos do mundo real.

De fato, muitos pesquisadores simplesmente assumem a ignorabilidade por conveniência, a fim de justificar o uso de métodos estatísticos. Esta passagem do artigo de Joffe, Yang e Feldman fala uma verdade inconveniente que a maioria das pessoas conhece, mas não diz durante as apresentações da conferência: "Geralmente, são feitas suposições de ignorabilidade porque justificam o uso dos métodos estatísticos disponíveis, e não porque realmente se acredita".

Mas, como eu disse no começo da resposta, você pode usar gráficos para discutir se uma atribuição de tratamento é ignorável ou não. Embora o conceito de ignorabilidade em si seja difícil de entender, porque estabelece julgamentos sobre quantidades contrafactuais, nos gráficos você está basicamente fazendo declarações qualitativas sobre processos causais (essa variável faz com que essa variável etc), que são fáceis de explicar e visualmente atraentes.

Como mencionado em uma resposta anterior, há uma equivalência formal entre gráficos e possíveis resultados . Portanto, você também pode ler os resultados em potencial dos gráficos. Para tornar essa conexão mais formal (para mais informações, consulte Causalidade de Pearl, p.343), você pode recorrer à seguinte definição: os possíveis resultados representariam o total de todas as variáveis (termos observados e de erro) que afetam Y quando T é mantido constante .

$T \rightarrow X \rightarrow Y$

Para resumir, muitos pesquisadores assumem a ignorância por padrão, por conveniência. É uma maneira conveniente de assumir a suficiência de um conjunto de controles sem precisar justificar formalmente o motivo, mas para explicar o que isso significa em um contexto real para um leigo, você precisaria invocar uma história causal, ou seja, suposições causais. , e você pode formalmente contar essa história com a ajuda de gráficos causais.

— Carlos Cinelli
fonte

$(Y^0,Y^1)$ $Y$

$X$

Y = T \cdot Y^{1 1} + (1 1 - T) \cdot Y^{0 0} .

$Y=T \cdot Y^1 + (1-T) \cdot Y^0.$

$Y$ $T$ $T \cdot Y^1$ $(1-T)\cdot Y^0$

$T$ $X$ $X$ $Y^1$ $X$

— Dimitriy V. Masterov
fonte

Observando a parte em que você diz "Eu acho que você está se preocupando com a diferença entre os resultados potenciais (Y0, Y1) e o resultado observado Y. O último é muito influenciado pelo tratamento, mas esperamos que o primeiro par não seja. " Isso pode ser interpretado como "O resultado observado depende do tratamento, mas sob uma hipótese nula de nenhum efeito do tratamento, o tratamento não deve influenciar os resultados potenciais"? Por que esperamos que os resultados em potencial sejam influenciados pelos tratamentos

— RayVelcoro 17/11/2015

Y^{1} - Y^{0}

$Y^1-Y^0$

T Y^{1}

$TY^{1}$

(1 - T) Y^{0}

$(1-T)Y^0$

Y

$Y$

T

$T$

@ user321627 Se você calcular a diferença nos meios de resultado observados para tratamento e controle, deve ser óbvio.

— Dimitriy V. Masterov 26/10/16

Inconfundimento no Modelo Causal de Rubin - explicação de Layman