Quando é inapropriado controlar uma variável?


15

Eu posso pensar em pelo menos um exemplo ingênuo. Suponha que eu queira estudar a relação entre X e Z. Eu também suspeito que Y influencia Z, então eu controlo Y. No entanto, como se sabe, sem o meu conhecimento, X causa Y e Y causa Z. Portanto, controlando para Y, "encobrimento" a relação entre X e Z, pois X é independente de Z, dado Y.

Agora, no exemplo anterior, pode ser que as relações que eu deveria estudar sejam aquelas entre X e Y, e Y e Z. No entanto, se eu soubesse dessas coisas a priori, não estaria fazendo ciência em o primeiro lugar. O estudo que eu fiz agora sugere que não há relação entre X e Z, o que não é o caso ... X e Z estão relacionados.

Isso é ilustrado no seguinte diagrama de dependência. No cenário certo, Z depende de X e Y e X e Y são independentes. Controlamos corretamente Y para determinar o relacionamento entre X e Z. No cenário esquerdo, Z depende de Y, que depende de X. X e Z são independentes, dado Y, portanto, o relacionamento entre X e Z é "encoberto" controlando Y.

variable_relationships

Minha pergunta é basicamente "Quando é apropriado controlar a variável Y e quando não?" ... Pode ser difícil ou impossível investigar completamente a relação entre X e Y, mas, por exemplo, controlar Y em um determinado nível é uma opção. Como decidimos antes de conduzir nosso estudo, e quais são as armadilhas comuns de controlar muito ou pouco?

Citações apreciadas.


7
Para dar um exemplo, sua situação exata surge na avaliação do impacto da discriminação racial. Seja corrida. Seja salário. Seja educação. Claramente, a educação afeta os salários; portanto, você deseja controlar isso, mas se a discriminação racial fizer com que uma minoria racial receba uma educação pior, o controle da educação encobriria essa discriminação. Por exemplo. ver Neal e Johnson (1996) . Como a resposta de Alexis aponta, você precisa entrar nos detalhes do seu problema. Não há um botão simples para pressionar que resolve tudo. Z YXZY
Matthew Gunn

11
Eu não tinha esperanças de pressionar um botão simples. Na verdade, eu ficaria bastante desapontado se minha pergunta tivesse uma resposta trivial. :)
Scott

11
@Repmat Sim. No entanto, as quatro suposições da estimativa IV raramente são atendidas e, mesmo quando são, a força das associações envolvidas pode fazer com que a estimativa IV dê resultados tendenciosos. Veja, por exemplo, Hernán e Robins Causal Estimation (citação e link completos na minha resposta), capítulo 16: Estimativa de variáveis ​​instrumentais.
Alexis

11
@ Alexis Naturalmente, é difícil encontrar IVs ... "Sem almoço grátis" e tudo, no entanto, quando o fizer, você geralmente o saberá com pouca ou nenhuma dúvida.
Repmat

11
@ Repep ... as suposições para estimativas IV válidas exigem mais do que o DAG retratado ... elas são realmente muito frágeis.
Alexis

Respostas:


7

O condicionamento (isto é, o ajuste) das probabilidades de algum resultado, dado um preditor de terceiros variáveis, é amplamente praticado, mas, como você corretamente aponta, pode realmente introduzir viés na estimativa resultante como uma representação dos efeitos causais . Isso pode até acontecer com definições "clássicas" de um potencial causador de confusão causal, porque tanto o fator de confusão em si quanto o preditor de interesse podem ter mais fatores de confusão causais a montante. No DAG abaixo, por exemplo, é um confusão clássico do efeito causal de E em D , porque (1) causa e está, portanto, associado a E , e (2) está associado a D, pois está associado aLEDED , que está associada com D . No entanto, condicionar ou estratificar P ( D | E ) em L (um "colisor") produzirá estimativas causais enviesadas do efeito de E em D porque L é confundido com D pela variável nãomedida U 2 , e L é confundido com E pela variável não medida U 1 .U2DP(D|E)LEDLDU2LEU1

DAG

A compreensão de quais variáveis ​​condicionar ou estratificar a análise de uma pessoa para fornecer uma estimativa causal imparcial requer uma consideração cuidadosa dos possíveis DAGs usando os critérios de identificação de efeitos causais - nenhuma causa comum que não seja bloqueada pelos caminhos de backdoor - descritos por Pearl, Robins e outros . Não há atalhos. Aprenda padrões comuns de confusão. Aprenda padrões comuns de viés de seleção. Prática.

Referências

Greenland, S., Pearl, J. e Robins, JM (1999). Diagramas causais para pesquisa epidemiológica . Epidemiology , 10 (1): 37–48.

Hernán, MA e Robins, JM (2018). Inferência Causal . Chapman & Hall / CRC, Boca Raton, Flórida

Maldonado, G. e Greenland, S. (2002). Estimando efeitos causais . International Journal of Epidemiology , 31 (2): 422–438.

Pearl, J. (2000). Causalidade: Modelos, Raciocínio e Inferência . Cambridge University Press.


12

Acredito que a resposta rápida de uma frase para sua pergunta,

Quando é apropriado controlar a variável Y e quando não?

é o "critério da porta dos fundos".

O Modelo Causal Estrutural de Judea Pearl pode dizer definitivamente quais variáveis ​​são suficientes (e quando é necessário) para condicionamento, para inferir o impacto causal de uma variável sobre outra. Nomeadamente, isso é respondido usando o critério da porta traseira, descrito na página 19 deste artigo de revisão de Pearl.

A principal ressalva é que requer que você conheça a relação causal entre as variáveis ​​(na forma de setas direcionais em um gráfico). Não há maneira de contornar isso. É aqui que a dificuldade e a possível subjetividade podem entrar em jogo. O modelo causal estrutural de Pearl apenas permite que você saiba como responder às perguntas certas, dado um modelo causal (ou seja, gráfico direcionado), que conjunto de modelos causais é possível com base na distribuição de dados ou como procurar estrutura causal executando o experimento correto. Ele não mostra como encontrar a estrutura causal correta, dada apenas a distribuição dos dados. De fato, alega que isso é impossível sem o uso de conhecimento / intuição externa sobre o significado das variáveis.

Os critérios da porta traseira podem ser definidos da seguinte maneira:

Para encontrar o impacto causal de em Y , um conjunto de nós variáveis S é suficiente para ser condicionado desde que satisfaça os dois critérios a seguir:XY,S

1) Nenhum elemento em é descendente de XSX

2) bloqueia todos os caminhos de "porta traseira" entre X e YSXY

Aqui, um caminho de "back-door" é simplesmente um caminho de setas que começam em e terminam com uma seta apontando para X . (A direção que todas as outras setas apontam não é importante.) E "bloquear" é, por si só, um critério que possui um significado específico, que é dado na página 11 do link acima. Este é o mesmo critério que você leria ao aprender sobre "separação D". Pessoalmente, descobri que o capítulo 8 do Reconhecimento de padrões e aprendizado de máquina de Bishop descreve o conceito de bloqueio na separação D muito melhor do que a fonte de Pearl que liguei acima. Mas é assim:YX.

Um conjunto de nós, bloqueia um caminho entre X e Y se atender a pelo menos um dos seguintes critérios:S,XY

1) Um dos nós no caminho, que também está em emite pelo menos uma seta no caminho (ou seja, a seta está apontando para fora do nó)S,

2) Um nó que não está em nem um ancestral de um nó em S tem duas setas no caminho "colidindo" em direção a ele (ou seja, encontrando-o frente a frente)SS

Este é um critério ou , diferentemente do critério geral da porta traseira, que é um critério e .

Para ser claro sobre o critério da porta traseira, o que ele diz é que, para um determinado modelo causal, ao condicionar uma variável suficiente, é possível aprender o impacto causal da distribuição de probabilidade dos dados. (Como sabemos, a distribuição conjunta por si só não é suficiente para encontrar o comportamento causal, porque várias estruturas causais podem ser responsáveis ​​pela mesma distribuição. É por isso que o modelo causal também é necessário.) A distribuição pode ser estimada usando estatísticas / métodos de aprendizado de máquina nos dados observacionais. Então, desde que você saiba Como a estrutura causal permite o condicionamento de uma variável (ou conjunto de variáveis), sua estimativa do impacto causal de uma variável sobre outra é tão boa quanto a estimativa da distribuição dos dados, que você obtém por meio de métodos estatísticos.

Aqui está o que descobrimos quando aplicamos o critério de porta traseira aos seus dois diagramas:

Em nenhum dos casos, existe um caminho de back-door de a X . Portanto, é verdade que Y bloqueia "todos" os caminhos da porta dos fundos, porque não há nenhum. No entanto, no diagrama da esquerda, Y é um descendente direto de X , enquanto no diagrama da direita não é. Portanto, Y segue o critério da porta traseira no diagrama à direita, mas não à esquerda. Estes são resultados surpreendentes.ZX.YYX,Y

O que é surpreendente, no entanto, é que no diagrama direita, enquanto ele é a imagem completa, você não precisa condição de para obter o impacto causal cheia de X em Z . (Dito de outra forma, o conjunto nulo atende aos critérios da porta traseira e, portanto, é suficiente para condicionar.) Intuitivamente, isso é verdade porque o valor de X não está associado ao valor de Y; portanto, para dados suficientes, você pode simplesmente calcular a média sobre o valor os valores de Y para marginalizar o efeito de Y em Z . Uma objeção a esse ponto pode ser que os dados são limitados, para que você não tenha uma distribuição representativa deYXZXYYYZ.Valores Y Mas lembre-se de que o critério da porta dos fundos supõe que você tenha a distribuição de probabilidade dos dados. Nesse caso, você pode analiticamente marginalizar Y . A marginalização de um conjunto de dados finitos é apenas uma estimativa. Além disso, observe que éaltamenteimprovável que esta seja a imagem completa. Existem fatores externos provável que o impacto X . Se esses fatores também estão associados a Y de alguma forma, mais trabalho deve ser feito para verificar se Y deve ser condicionado ou se é suficiente. Se você desenhar outra seta apontando de Y a X , Y se tornará necessário para controlar.YY.X.YYYXY

Esses são, é claro, exemplos muito simples em que a intuição é suficiente para saber quando pode ou não pode ser controlado. Mas aqui estão mais alguns exemplos em que não é óbvio olhando o diagrama, e você pode usar os critérios da porta traseira. Para o seguinte diagrama que perguntar se ele é suficiente para controlar para Y quando a determinação do impacto causal de X em Z .YYXZ.

Is it sufficient to control for $Y$ to find the causal impact of $X$ on $Z$?

A primeira coisa a notar é que, em ambos os casos, não é um descendente de X . Então, passa esse critério. A próxima coisa a notar é que, em ambos os casos, há vários caminhos de backdoor de Z a X . Dois no diagrama esquerdo e três no direito.YX.ZX.

No diagrama esquerda os caminhos secretos são e Z W B Um X .ZYXZWBAX. bloqueia o primeiro caminho porque é um nó emissor de seta diretamente no caminho. Y tambémbloqueia o segundo caminho porque ele não é nem B , nem é um descendente de B , que é o único nó de colisão de setas no caminho. Portanto, Y é um conjunto suficiente para condicionamento. (Note-se, ao contrário de noseudiagrama direito, o conjunto nulo não é suficiente para o condicionamento, porque ele não bloqueia o caminho Z Y X ).YY B,B,YZYX

No diagrama direita os caminhos secretos são o mesmo duas como no esquerdo, mais o caminho ZWBYX. fazbloquear este caminho, porque é uma seta emissores nó no caminho. Ele também bloqueia o caminho Z Y X pelo mesmo motivo que o diagrama esquerdo. No entanto, elenãobloquear o caminho Z W B Um X , porque é uma descendente directa do nó colisor B . Portanto,nãoésuficiente para condicionar.Y ZYXZWBAX,B.

É bastante pouco intuitivo ver por que é suficiente para condicionar no diagrama esquerdo, devido às variáveis ​​exógenas A e W que afetam X e Z, respectivamente. No entanto, suponha que não houve B . Nesse caso, não haveria relação espúria entre X e Z devido a essas variáveis ​​exógenas, portanto elas não são motivo de preocupação. A existência de B , no entanto, coloca isso em questão. Se B tem permissão para assumir qualquer valor que naturalmente leva dado A e WYAWXZB.XZB,BAW, não seria um problema porque não tem impacto nas variáveis ​​importantes ou nas variáveis ​​exógenas que as determinam. No entanto, se (ou qualquer um de seus descendentes) é controlado , ele na verdade torna A e W dependentes, o que cria o relacionamento espúrio entre X e Z que não queremos. Como mencionado na fonte vinculada, este é um exemplo do paradoxo de Berkson , onde uma observação de uma variável causada por duas fontes independentes torna essas fontes dependentes (por exemplo, o resultado de dois lançamentos independentes de moedas se torna dependente da observação do número total de cabeças viraram).BAWXZ

Como mencionei antes, o uso do critério da porta traseira exige que você conheça o modelo causal (isto é, o diagrama "correto" de setas entre as variáveis). Mas o Modelo Causal Estrutural, na minha opinião, também oferece a melhor e mais formal maneira de procurar um modelo ou saber quando a pesquisa é fútil. Ele também tem o maravilhoso efeito colateral de tornar obsoletos termos como "confusão", "mediação" e "espúrio" (todos os quais me confundem). Apenas me mostre a foto e eu direi quais círculos devem ser controlados.


3
Agradável. Eu estava pensando se deveria adicionar Causalidade de Pearl à seção de referências da minha resposta ... e agora o fiz. :)
Alexis

0

O seguinte pode ou não ser adequado ao seu caso: se Xfor um tratamento, você poderá solucionar seu problema usando a correspondência de propensão, na qual você ainda manteria a variável Yao fazer a correspondência. Em outras palavras, você equilibra as covariáveis ​​( Yé uma dessas covariáveis) que prevêem receber o tratamento X.
Observe como não há referência à variável de resultado Zacima. Você também pode verificar o nível de equilíbrio de suas observações (gerando uma tabela de equilíbrio antes e depois da correspondência), o que pode fornecer informações sobre quanto Xé determinado por Y.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.