Argumento sobre interações no livro O porquê

Há um parágrafo sobre interações no The Book of Why (Pearl & Mackenzie, 2018), capítulo 9 (não consigo compartilhar o número da página porque tenho o livro no formato epub), onde os autores argumentam que:

No entanto, a Equação 9.4 se mantém automaticamente em uma situação, sem a necessidade aparente de invocar contrafactuais. É o caso de um modelo causal linear, do tipo que vimos no Capítulo 8. Como discutido lá, os modelos lineares não permitem interações , o que pode ser uma virtude e uma desvantagem. É uma virtude no sentido de facilitar a análise da mediação, mas é uma desvantagem se queremos descrever um processo causal do mundo real que envolve interações. [Ênfase minha]

A equação 9.4 é

Total Effect = Direct Effect + Indirect Effect

$\text{Total Effect = Direct Effect + Indirect Effect}$

Eles repetiram um argumento semelhante antes no capítulo 8:

Por outro lado, os modelos lineares não podem representar curvas dose-resposta que não sejam retas. Eles não podem representar efeitos limiares, como um medicamento que tem efeitos crescentes até uma certa dose e, em seguida, nenhum efeito adicional. Eles também não podem representar interações entre variáveis . Por exemplo, um modelo linear não pode descrever uma situação em que uma variável aprimora ou inibe o efeito de outra variável. (Por exemplo, a educação pode aumentar o efeito da experiência, colocando o indivíduo em um trabalho mais rápido, com aumentos anuais maiores.) [Ênfase minha]

E no capítulo 7:

Lembre-se também de que o ajuste baseado em regressão * funciona apenas para modelos lineares, que envolvem uma suposição importante de modelagem. Com modelos lineares, perdemos a capacidade de modelar interações não lineares, como quando o efeito de X em Y depende do nível de Z. O ajuste da porta traseira, por outro lado, ainda funciona bem, mesmo quando não temos idéia do que funções estão atrás das setas nos diagramas. Mas neste caso não paramétrico, precisamos empregar outros métodos de extrapolação para lidar com a maldição da dimensionalidade. [Ênfase minha]

Por que Pearl e Mackenzie argumentam que os modelos lineares não permitem interações? Eu negligencio um detalhe importante e informações específicas do contexto?

* Por ajuste baseado em regressão, os autores se referem (nos parágrafos anteriores), ao que chamamos de "controle de" outras variáveis: "O análogo de uma linha de regressão é um plano de regressão, que possui uma equação que se parece com ... O coeficiente nos fornece o coeficiente de regressão de em já ajustado para (É chamado de coeficiente de regressão parcial e está escrito .) " $Y=aX+bZ+c$ $a$ $Y$ $X$ $Z$ $r_{YX.Z}$

references interaction causality

— TEG
fonte

suas citações apenas destacam a pergunta. Você pode fornecer informações sobre, por exemplo, o que é o ajuste baseado em regressão.

— seanv507

Por ajuste baseado em regressão, os autores se referem (nos parágrafos anteriores), ao que algumas vezes chamamos de "controlar" outras variáveis: "O análogo de uma linha de regressão é um plano de regressão, que possui uma equação que se parece com ... O coeficiente nos fornece o coeficiente de regressão de em já ajustado para (É chamado de coeficiente de regressão parcial e está escrito .) "

Y = a X + b Z + c

$Y = aX + bZ + c$

a

$a$

Y

$Y$

X

$X$

Z

$Z$

r_{Y X . Z}

$r_{YX.Z}$

— TEG

então talvez adicionar este a pergunta ... afaik isso ainda poderia ser feito, em teoria, para termos de interação, mas normalmente não é feito na prática

— seanv507

Respostas:

Você está confluindo lineares em parâmetros com lineares em variáveis. Linearidade aqui se refere à relação entre as variáveis.

O argumento deles no livro é que, se o modelo não for linear nas variáveis , nem a equação

Total Effect = Direct Effect + Indirect Effect

$\text{Total Effect} = \text{Direct Effect} + \text{Indirect Effect}$

mantém, nem o coeficiente de regressão fornece o ajuste adequado da porta traseira diretamente.

No que se refere ao último caso, por exemplo, considerar a expectativa condicional , o qual é linear em relação a e . $E[Y|x,z] = \beta x + \gamma z$ $X$ $Z$

Se satisfizer o critério de backdoor para o efeito causal de em , então $Z$ $X$ $Y$

\frac{\partial E [Y | d o (x)]}{\partial x} = \frac{\partial E [E [Y | x, Z]]}{\partial x} = β

$\frac{\partial E[Y|do(x)]}{\partial x} = \frac{\partial E[E[Y|x, Z]]}{\partial x} = \beta$

Ou seja, o coeficiente de regressão é igual ao efeito causal marginal médio. Isso é o que se entende por "trabalhos de ajuste baseado em regressão", neste caso, você não precisa de etapas extras aqui --- toda a média necessária para o ajuste da porta traseira é feita automaticamente por regressão. $\beta$

Agora considere a expectativa condicional . Observe que isso não é linear em relação a e $E[Y|x,z] = \beta x + \gamma z + \delta (x \times z)$ $x$ $z$ (embora seja linear nos parâmetros).

Observe neste caso se $Z$ satisfaz o critério de backdoor para o efeito causal de $X$ em $Y$ , então

\frac{\partial E [Y | d o (x)]}{\partial x} = \frac{\partial E [E [Y | x, Z]]}{\partial x} = β + δ E [z]

$\frac{\partial E[Y|do(x)]}{\partial x} = \frac{\partial E[E[Y|x, Z]]}{\partial x} = \beta + \delta E[z]$

Ou seja, o ajuste correto da porta traseira não é fornecido pelo coeficiente de regressão $X$ só.

De maneira mais geral, Pearl está dizendo que se satisfizer o critério de backdoor, você poderá usar qualquer estimador não paramétrico que preferir para calcular a distribuição pós-intervenção . $Z$ $E[Y|do(x)] = E[E[Y|x, Z]]$

— Carlos Cinelli
fonte

Obrigado, @CarlosCinelli. Conheço seu interesse no trabalho de Pearl a partir deste tópico ( stats.stackexchange.com/a/376925/109647 ) e estou feliz por você ter tido tempo de escrever uma resposta aqui. É mais detalhado em comparação com a resposta anterior, mas basicamente concorda com isso. Assim, por modelo linear, Pearl significa linear em variáveis , mas não em parâmetros . Mas, eis o meu problema: o termo "linear" no modelo linear não se refere a ser linear em variáveis. Tanto quanto eu sei, ele nunca faz ...

— TEG

Conforme declarado nesta resposta ( stats.stackexchange.com/a/8706/109647 ), "linear refere-se ao relacionamento entre os parâmetros que você está estimando e o resultado". Essa é uma das primeiras coisas que aprendi em um curso de regressão; você pode modelar relações não lineares (por exemplo, termos polinomiais) em regressão linear. Preservamos o termo não linear para os modelos que não são lineares em parâmetros (por exemplo,

y = e^{β} + ε

$y= e^{\beta} + \varepsilon$ ) ...

— TEG

Parece-me que não estou confundindo nada, apenas pedindo esclarecimentos. Ambas as respostas se resumem a isso: Pearl significa outra coisa por "modelo linear". Mas não tenho motivos para adotar o uso do termo Pearl prefere. E modelos lineares (como em linear nos parâmetros ) fazer permitem interações. Se o que negligencio é apenas a maneira diferente de "modelo linear" usado aqui, então aceitarei esta resposta.

— TEG

Oi @TEG, a resposta que você menciona está falando sobre modelos de regressão. Aqui estamos falando de modelos causais (estruturais). A equação estrutural y = f (x, z) é linear se f (x, z) é uma função linear de x e z. Você pode estimar f (x, z) com OLS e transformações variáveis, mas f (x, z) ainda não é linear. Um modelo estrutural é considerado linear se todas as funções forem lineares. Essa não é apenas uma diferença na semântica - se o modelo estrutural não for linear, como Pearl diz: (1) o ajuste da porta traseira difere do ajuste da regressão; e (2) a decomposição TE = DE + IE não se sustenta

— Carlos Cinelli

"Um modelo estrutural é considerado linear se todas as funções forem lineares" nas variáveis, certo? Então, um modelo como

Y = β_{0} + β_{1} X_{1} + β_{2} X_{2} + β_{3} (X_{1} \times X_{2}) + ε

$Y= \beta_0 +\beta_1X_1 + \beta_2X_2 + \beta_3(X_1 \times X_2) + \varepsilon$ não é linear na estrutura de modelagem causal.

— TEG

Modelos "puramente lineares" não permitem isso. Se você deseja modelar uma interação usando um caso específico do Modelo Linear Geral (não confunda isso com um Modelo Linear Generalizado), é necessário introduzir uma variável extra artificial como o produto dos dois que interagem.

Esse novo modelo ainda é linear em relação aos seus parâmetros (é o que importa para obter os estimadores), mas não é mais linear em relação às suas variáveis (você não pode mais falar sobre uma relação linear entre regressores e alvo)

— David
fonte

Obrigado. O que é um modelo "puramente linear"? Além disso, os autores não usaram esse termo no livro.

— TEG

Eles não fizeram. Acabei de inventar. Refiro-me a modelos que são lineares no que diz respeito a variáveis e parâmetros #

— David