Quando é inapropriado controlar uma variável?

Eu posso pensar em pelo menos um exemplo ingênuo. Suponha que eu queira estudar a relação entre X e Z. Eu também suspeito que Y influencia Z, então eu controlo Y. No entanto, como se sabe, sem o meu conhecimento, X causa Y e Y causa Z. Portanto, controlando para Y, "encobrimento" a relação entre X e Z, pois X é independente de Z, dado Y.

Agora, no exemplo anterior, pode ser que as relações que eu deveria estudar sejam aquelas entre X e Y, e Y e Z. No entanto, se eu soubesse dessas coisas a priori, não estaria fazendo ciência em o primeiro lugar. O estudo que eu fiz agora sugere que não há relação entre X e Z, o que não é o caso ... X e Z estão relacionados.

Isso é ilustrado no seguinte diagrama de dependência. No cenário certo, Z depende de X e Y e X e Y são independentes. Controlamos corretamente Y para determinar o relacionamento entre X e Z. No cenário esquerdo, Z depende de Y, que depende de X. X e Z são independentes, dado Y, portanto, o relacionamento entre X e Z é "encoberto" controlando Y.

Minha pergunta é basicamente "Quando é apropriado controlar a variável Y e quando não?" ... Pode ser difícil ou impossível investigar completamente a relação entre X e Y, mas, por exemplo, controlar Y em um determinado nível é uma opção. Como decidimos antes de conduzir nosso estudo, e quais são as armadilhas comuns de controlar muito ou pouco?

Citações apreciadas.

mediation controlling-for-a-variable

— Scott
fonte

Para dar um exemplo, sua situação exata surge na avaliação do impacto da discriminação racial. Seja corrida. Seja salário. Seja educação. Claramente, a educação afeta os salários; portanto, você deseja controlar isso, mas se a discriminação racial fizer com que uma minoria racial receba uma educação pior, o controle da educação encobriria essa discriminação. Por exemplo. ver Neal e Johnson (1996) . Como a resposta de Alexis aponta, você precisa entrar nos detalhes do seu problema. Não há um botão simples para pressionar que resolve tudo.

X

$X$

Z

$Z$

Y

$Y$

— Matthew Gunn

Eu não tinha esperanças de pressionar um botão simples. Na verdade, eu ficaria bastante desapontado se minha pergunta tivesse uma resposta trivial. :)

— Scott

@Repmat Sim. No entanto, as quatro suposições da estimativa IV raramente são atendidas e, mesmo quando são, a força das associações envolvidas pode fazer com que a estimativa IV dê resultados tendenciosos. Veja, por exemplo, Hernán e Robins Causal Estimation (citação e link completos na minha resposta), capítulo 16: Estimativa de variáveis instrumentais.

— Alexis

@ Alexis Naturalmente, é difícil encontrar IVs ... "Sem almoço grátis" e tudo, no entanto, quando o fizer, você geralmente o saberá com pouca ou nenhuma dúvida.

— Repmat

@ Repep ... as suposições para estimativas IV válidas exigem mais do que o DAG retratado ... elas são realmente muito frágeis.

— Alexis

Respostas:

O condicionamento (isto é, o ajuste) das probabilidades de algum resultado, dado um preditor de terceiros variáveis, é amplamente praticado, mas, como você corretamente aponta, pode realmente introduzir viés na estimativa resultante como uma representação dos efeitos causais . Isso pode até acontecer com definições "clássicas" de um potencial causador de confusão causal, porque tanto o fator de confusão em si quanto o preditor de interesse podem ter mais fatores de confusão causais a montante. No DAG abaixo, por exemplo, é um confusão clássico do efeito causal de em , porque (1) causa e está, portanto, associado a , e (2) está associado a pois está associado a $L$ $E$ $D$ $E$ $D$ , que está associada com . No entanto, condicionar ou estratificar em (um "colisor") produzirá estimativas causais enviesadas do efeito de em porque é confundido com pela variável nãomedida , e é confundido com pela variável não medida . $U_{2}$ $D$ $P(D|E)$ $L$ $E$ $D$ $L$ $D$ $U_{2}$ $L$ $E$ $U_{1}$

A compreensão de quais variáveis condicionar ou estratificar a análise de uma pessoa para fornecer uma estimativa causal imparcial requer uma consideração cuidadosa dos possíveis DAGs usando os critérios de identificação de efeitos causais - nenhuma causa comum que não seja bloqueada pelos caminhos de backdoor - descritos por Pearl, Robins e outros . Não há atalhos. Aprenda padrões comuns de confusão. Aprenda padrões comuns de viés de seleção. Prática.

Referências

Greenland, S., Pearl, J. e Robins, JM (1999). Diagramas causais para pesquisa epidemiológica . Epidemiology , 10 (1): 37–48.

Hernán, MA e Robins, JM (2018). Inferência Causal . Chapman & Hall / CRC, Boca Raton, Flórida

Maldonado, G. e Greenland, S. (2002). Estimando efeitos causais . International Journal of Epidemiology , 31 (2): 422–438.

Pearl, J. (2000). Causalidade: Modelos, Raciocínio e Inferência . Cambridge University Press.

— Alexis
fonte

Acredito que a resposta rápida de uma frase para sua pergunta,

Quando é apropriado controlar a variável Y e quando não?

é o "critério da porta dos fundos".

O Modelo Causal Estrutural de Judea Pearl pode dizer definitivamente quais variáveis são suficientes (e quando é necessário) para condicionamento, para inferir o impacto causal de uma variável sobre outra. Nomeadamente, isso é respondido usando o critério da porta traseira, descrito na página 19 deste artigo de revisão de Pearl.

A principal ressalva é que requer que você conheça a relação causal entre as variáveis (na forma de setas direcionais em um gráfico). Não há maneira de contornar isso. É aqui que a dificuldade e a possível subjetividade podem entrar em jogo. O modelo causal estrutural de Pearl apenas permite que você saiba como responder às perguntas certas, dado um modelo causal (ou seja, gráfico direcionado), que conjunto de modelos causais é possível com base na distribuição de dados ou como procurar estrutura causal executando o experimento correto. Ele não mostra como encontrar a estrutura causal correta, dada apenas a distribuição dos dados. De fato, alega que isso é impossível sem o uso de conhecimento / intuição externa sobre o significado das variáveis.

Os critérios da porta traseira podem ser definidos da seguinte maneira:

Para encontrar o impacto causal de em um conjunto de nós variáveis é suficiente para ser condicionado desde que satisfaça os dois critérios a seguir: $X$ $Y,$ $S$

1) Nenhum elemento em é descendente de $S$ $X$

2) bloqueia todos os caminhos de "porta traseira" entre e $S$ $X$ $Y$

Aqui, um caminho de "back-door" é simplesmente um caminho de setas que começam em e terminam com uma seta apontando para (A direção que todas as outras setas apontam não é importante.) E "bloquear" é, por si só, um critério que possui um significado específico, que é dado na página 11 do link acima. Este é o mesmo critério que você leria ao aprender sobre "separação D". Pessoalmente, descobri que o capítulo 8 do Reconhecimento de padrões e aprendizado de máquina de Bishop descreve o conceito de bloqueio na separação D muito melhor do que a fonte de Pearl que liguei acima. Mas é assim: $Y$ $X.$

Um conjunto de nós, bloqueia um caminho entre e se atender a pelo menos um dos seguintes critérios: $S,$ $X$ $Y$

1) Um dos nós no caminho, que também está em emite pelo menos uma seta no caminho (ou seja, a seta está apontando para fora do nó) $S,$

2) Um nó que não está em nem um ancestral de um nó em tem duas setas no caminho "colidindo" em direção a ele (ou seja, encontrando-o frente a frente) $S$ $S$

Este é um critério ou , diferentemente do critério geral da porta traseira, que é um critério e .

Para ser claro sobre o critério da porta traseira, o que ele diz é que, para um determinado modelo causal, ao condicionar uma variável suficiente, é possível aprender o impacto causal da distribuição de probabilidade dos dados. (Como sabemos, a distribuição conjunta por si só não é suficiente para encontrar o comportamento causal, porque várias estruturas causais podem ser responsáveis pela mesma distribuição. É por isso que o modelo causal também é necessário.) A distribuição pode ser estimada usando estatísticas / métodos de aprendizado de máquina nos dados observacionais. Então, desde que você saiba Como a estrutura causal permite o condicionamento de uma variável (ou conjunto de variáveis), sua estimativa do impacto causal de uma variável sobre outra é tão boa quanto a estimativa da distribuição dos dados, que você obtém por meio de métodos estatísticos.

Aqui está o que descobrimos quando aplicamos o critério de porta traseira aos seus dois diagramas:

Em nenhum dos casos, existe um caminho de back-door de a Portanto, é verdade que bloqueia "todos" os caminhos da porta dos fundos, porque não há nenhum. No entanto, no diagrama da esquerda, é um descendente direto de enquanto no diagrama da direita não é. Portanto, segue o critério da porta traseira no diagrama à direita, mas não à esquerda. Estes são resultados surpreendentes. $Z$ $X.$ $Y$ $Y$ $X,$ $Y$

O que é surpreendente, no entanto, é que no diagrama direita, enquanto ele é a imagem completa, você não precisa condição de para obter o impacto causal cheia de em . (Dito de outra forma, o conjunto nulo atende aos critérios da porta traseira e, portanto, é suficiente para condicionar.) Intuitivamente, isso é verdade porque o valor de não está associado ao valor de portanto, para dados suficientes, você pode simplesmente calcular a média sobre o valor os valores de para marginalizar o efeito de em Uma objeção a esse ponto pode ser que os dados são limitados, para que você não tenha uma distribuição representativa de $Y$ $X$ $Z$ $X$ $Y$ $Y$ $Y$ $Z.$ ValoresMas lembre-se de que o critério da porta dos fundos supõe que você tenha a distribuição de probabilidade dos dados. Nesse caso, você pode analiticamente marginalizarA marginalização de um conjunto de dados finitos é apenas uma estimativa. Além disso, observe que éaltamenteimprovável que esta seja a imagem completa. Existem fatores externos provável que o impactoSe esses fatores também estão associados a de alguma forma, mais trabalho deve ser feito para verificar se deve ser condicionado ou se é suficiente. Se você desenhar outra seta apontando de a , se tornará necessário para controlar. $Y$ $Y.$ $X.$ $Y$ $Y$ $Y$ $X$ $Y$

Esses são, é claro, exemplos muito simples em que a intuição é suficiente para saber quando pode ou não pode ser controlado. Mas aqui estão mais alguns exemplos em que não é óbvio olhando o diagrama, e você pode usar os critérios da porta traseira. Para o seguinte diagrama que perguntar se ele é suficiente para controlar para quando a determinação do impacto causal de em $Y$ $Y$ $X$ $Z.$

A primeira coisa a notar é que, em ambos os casos, não é um descendente de Então, passa esse critério. A próxima coisa a notar é que, em ambos os casos, há vários caminhos de backdoor de a Dois no diagrama esquerdo e três no direito. $Y$ $X.$ $Z$ $X.$

No diagrama esquerda os caminhos secretos são e $Z \leftarrow Y \rightarrow X$ $Z \leftarrow W \rightarrow B \leftarrow A \rightarrow X. \hspace{1mm}$ bloqueia o primeiro caminho porque é um nó emissor de seta diretamente no caminho. tambémbloqueia o segundo caminho porque ele não é nem nem é um descendente de que é o único nó de colisão de setas no caminho. Portanto, é um conjunto suficiente para condicionamento. (Note-se, ao contrário de noseudiagrama direito, o conjunto nulo não é suficiente para o condicionamento, porque ele não bloqueia o caminho ). $Y$ $Y$ $B,$ $B,$ $Y$ $Z \leftarrow Y \rightarrow X$

No diagrama direita os caminhos secretos são o mesmo duas como no esquerdo, mais o caminho $Z \leftarrow W \rightarrow B \rightarrow Y \rightarrow X. \hspace{1mm}$ fazbloquear este caminho, porque é uma seta emissores nó no caminho. Ele também bloqueia o caminho pelo mesmo motivo que o diagrama esquerdo. No entanto, elenãobloquear o caminho porque é uma descendente directa do nó colisorPortanto,nãoésuficiente para condicionar. $Y$ $Z \leftarrow Y \rightarrow X$ $Z \leftarrow W \rightarrow B \leftarrow A \rightarrow X,$ $B.$

É bastante pouco intuitivo ver por que é suficiente para condicionar no diagrama esquerdo, devido às variáveis exógenas e que afetam e respectivamente. No entanto, suponha que não houve Nesse caso, não haveria relação espúria entre e devido a essas variáveis exógenas, portanto elas não são motivo de preocupação. A existência de no entanto, coloca isso em questão. Se tem permissão para assumir qualquer valor que naturalmente leva dado e $Y$ $A$ $W$ $X$ $Z$ $B.$ $X$ $Z$ $B,$ $B$ $A$ $W$ , não seria um problema porque não tem impacto nas variáveis importantes ou nas variáveis exógenas que as determinam. No entanto, se (ou qualquer um de seus descendentes) é controlado , ele na verdade torna e dependentes, o que cria o relacionamento espúrio entre e que não queremos. Como mencionado na fonte vinculada, este é um exemplo do paradoxo de Berkson , onde uma observação de uma variável causada por duas fontes independentes torna essas fontes dependentes (por exemplo, o resultado de dois lançamentos independentes de moedas se torna dependente da observação do número total de cabeças viraram). $B$ $A$ $W$ $X$ $Z$

Como mencionei antes, o uso do critério da porta traseira exige que você conheça o modelo causal (isto é, o diagrama "correto" de setas entre as variáveis). Mas o Modelo Causal Estrutural, na minha opinião, também oferece a melhor e mais formal maneira de procurar um modelo ou saber quando a pesquisa é fútil. Ele também tem o maravilhoso efeito colateral de tornar obsoletos termos como "confusão", "mediação" e "espúrio" (todos os quais me confundem). Apenas me mostre a foto e eu direi quais círculos devem ser controlados.

— Bridgeburners
fonte

Agradável. Eu estava pensando se deveria adicionar Causalidade de Pearl à seção de referências da minha resposta ... e agora o fiz. :)

— Alexis

O seguinte pode ou não ser adequado ao seu caso: se Xfor um tratamento, você poderá solucionar seu problema usando a correspondência de propensão, na qual você ainda manteria a variável Yao fazer a correspondência. Em outras palavras, você equilibra as covariáveis ( Yé uma dessas covariáveis) que prevêem receber o tratamento X.
Observe como não há referência à variável de resultado Zacima. Você também pode verificar o nível de equilíbrio de suas observações (gerando uma tabela de equilíbrio antes e depois da correspondência), o que pode fornecer informações sobre quanto Xé determinado por Y.

— NadTeX
fonte