Uma regressão é causal se não houver variáveis ​​omitidas?


13

Uma regressão de y em x não precisa ser causal se houver variáveis ​​omitidas que influenciam x e y . Mas se não for para variáveis ​​omitidas e erro de medição, uma regressão é causal? Ou seja, se todas as variáveis ​​possíveis forem incluídas na regressão?


4
Não, mesmo se você incluísse todas as variáveis ​​do mundo, isso poderia ser causal inverso. Por exemplo, a proximidade de um planeta de sua estrela mais próxima poderia ser previsto com precisão pela temperatura da superfície do planeta, mas claramente a causalidade vai a outra maneira
gazza89

@ gazza89 - como isso responde efetivamente à pergunta, você pode expandi-la para uma resposta.
jbowman

3
O que são "variáveis ​​omitidas"? Suponha que eu tenha um Y e 4 Xs no meu conjunto de dados. Eu ajustei um modelo incluindo todos os 4 Xs. Então eu não tenho variáveis ​​omitidas?
user158565

Respostas:


20

Não, não é, vou mostrar alguns contra-exemplos.

O primeiro é a causa inversa . Considere que o modelo causal é YX , onde X e Y são variáveis ​​aleatórias gaussianas padrão. Então E[Y|do(x)]=0 , pois X não causa Y , mas E[Y|x] dependerá X .

O segundo exemplo é o controle de coletores (veja aqui ). Considere o modelo causal XZY , ou seja, X não causa Y e Z é uma causa comum. Mas observe que, se você executar uma regressão incluindo Z , o coeficiente de regressão de X não será zero, porque o condicionamento na causa comum induzirá a associação entre Y e X (você pode ver aqui também a Análise de Caminho na Presença de um colisor condicionado ).

De maneira mais geral, a regressão de Y em X será causal se as variáveis ​​incluídas na regressão satisfizerem o critério de backdoor .


3
Altamente recomendar o livro do por que, por Judea Pearl. Explica completamente a que Carlos se refere.
Markos Kashiouris 23/10

3
O que significa ? do(x)
naught101

5
@ naught101 isso significa que você realmente forçar X = x, em contraste com observando passivamente X = x, veja aqui stats.stackexchange.com/questions/211008/dox-operator-meaning/...
Carlos Cinelli

Obrigado, mas não estou claro sobre a notação. Faz significativo Z faz com que X e Y ? As setas devem ser invertidas? XZYZXY
Esha

@Esha Significa ambos e y provoca zxyz
Carlos Cinelli

6

Além da importante resposta de Carlos Cinelli a essa pergunta, existem mais algumas razões pelas quais os coeficientes de regressão podem não ser causais.

Em primeiro lugar, a especificação incorreta do modelo pode fazer com que os parâmetros não sejam causais. Só porque você tem todas as variáveis ​​relevantes no seu modelo não significa que você as ajustou da maneira correta. Como um exemplo muito simples, considere uma variável X que é distribuída simétrica em torno de 0. Suponha que sua variável de resultado Y seja afetada por X forma que E(YX)=X2 . Regressar Y em X (em oposição a X2 ) fornecerá um coeficiente estimado para X de cerca de 0, claramente tendencioso, apesar de você ter ajustado para todas (a única) variável que afetaY .

Em segundo lugar, e relacionado ao tópico causalidade reversa, também há o risco de que você possa ter um viés de seleção , ou seja, que sua amostra tenha sido selecionada de tal forma que não seja representativa para a população para a qual você deseja extrair sua inferência. Além disso, os dados ausentes também podem introduzir viés se os dados não estiverem faltando completamente aleatoriamente.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.