Estatística e inferência causal?


51

Em seu artigo de 1984 "Statistics and Causal Inference" , Paul Holland levantou uma das questões mais fundamentais em estatística:

O que um modelo estatístico pode dizer sobre causalidade?

Isso levou ao seu lema:

SEM CAUSA SEM MANIPULAÇÃO

que enfatizava a importância de restrições em torno de experimentos que consideram causalidade. Andrew Gelman faz uma observação semelhante :

"Para descobrir o que acontece quando você muda alguma coisa, é necessário mudá-la." ... Há coisas que você aprende perturbando um sistema que você nunca descobrirá com qualquer quantidade de observação passiva.

Suas idéias estão resumidas neste artigo .

Que considerações devem ser feitas ao se fazer uma inferência causal a partir de um modelo estatístico?


2
ótima pergunta: consulte também esta pergunta relacionada sobre estatísticas de
Jeromy Anglim


5
Muito a dizer. Mas você pode ler o livro de Causality, de Pearl (2002, mas mais recente, 2ª edição), ou o livro "Causal Inference", de Hernan e Robins (2015, rascunho eletrônico gratuito online, se você pesquisar).

Respostas:


28

Essa é uma questão ampla, mas, dada a citação de Box, Hunter e Hunter, é verdade, acho que tudo se resume a isso.

  1. A qualidade do projeto experimental:

    • randomização, tamanhos das amostras, controle de fatores de confusão, ...
  2. A qualidade da implementação do design:

    • aderência ao protocolo, erro de medição, manipulação de dados, ...
  3. A qualidade do modelo para refletir com precisão o design:

    • estruturas de bloqueio são representadas com precisão, graus adequados de liberdade são associados a efeitos, estimadores são imparciais, ...

Correndo o risco de afirmar o óbvio, tentarei abordar os pontos principais de cada um:

  1. é um grande subcampo das estatísticas, mas, na sua forma mais básica, acho que tudo se resume ao fato de que, ao fazer inferência causal, começamos idealmente com unidades idênticas que são monitoradas em ambientes idênticos, além de serem atribuídos a um tratamento. Quaisquer diferenças sistemáticas entre os grupos após a atribuição são então logicamente atribuíveis ao tratamento (podemos inferir a causa). Mas, o mundo não é tão bom e as unidades diferem antes do tratamento e os ambientes durante os experimentos não são perfeitamente controlados. Portanto, "controlamos o que podemos e randomizamos o que não podemos", o que ajuda a garantir que não haverá viés sistemático devido aos fatores de confusão que controlamos ou randomizamos. Um problema é que os experimentos tendem a ser difíceis (a impossíveis) e caros, e uma grande variedade de projetos foi desenvolvida para extrair eficientemente o máximo de informações possível em um ambiente tão cuidadosamente controlado quanto possível, dados os custos. Alguns deles são bastante rigorosos (por exemplo, em medicina, o estudo duplo-cego, randomizado, controlado por placebo) e outros menos (por exemplo, várias formas de 'quase-experimentos').

  2. também é um grande problema e que os estatísticos geralmente não pensam ... embora devêssemos. No trabalho estatístico aplicado, lembro-me de incidências em que os "efeitos" encontrados nos dados eram resultados espúrios de inconsistência na coleta ou manipulação de dados. Também me pergunto com que frequência as informações sobre os verdadeiros efeitos causais do interesse são perdidas devido a esses problemas (acredito que os estudantes das ciências aplicadas geralmente têm pouco ou nenhum treinamento sobre maneiras pelas quais os dados podem ser corrompidos - mas estou discutindo aqui) ...)

  3. é outro grande assunto técnico e outro passo necessário na inferência causal objetiva. Até certo ponto, isso é resolvido porque a multidão de projetos desenvolve projetos e modelos juntos (uma vez que a inferência de um modelo é o objetivo, os atributos dos estimadores direcionam o projeto). Mas isso só nos leva até agora porque, no 'mundo real', acabamos analisando dados experimentais de projetos que não são de livros didáticos e, então, temos que pensar muito sobre coisas como os controles apropriados e como eles devem entrar no modelo e quais graus associados a liberdade deve ser e se as premissas são atendidas, se não como ajustar as violações e quão robustos os estimadores são para quaisquer violações remanescentes e ...

De qualquer forma, espero que algumas das opções acima ajudem a pensar em considerações ao fazer inferência causal a partir de um modelo. Esqueci algo grande?


3
Uma vantagem enorme para o ponto 2. Além de passar pelo treinamento de proteção de sujeitos humanos, nunca recebi o mínimo de treinamento em coleta e armazenamento de dados. Acertar a coleta de dados é muito mais importante que a análise.
Matt Parker

Eu adoraria responder também, mas receio que não haja mais nada a acrescentar ao que Kingsford disse.
Joris Meys

7

Além da excelente resposta acima, existe um método estatístico que pode aproximá-lo da demonstração de causalidade. É a causalidade de Granger que demonstra que uma variável independente que ocorre antes de uma variável dependente tem um efeito causal ou não. Apresento esse método em uma apresentação fácil de seguir no seguinte link:

http://www.slideshare.net/gaetanlion/granger-causality-presentation

Também aplico este método para testar teorias macroeconômicas concorrentes: http://www.slideshare.net/gaetanlion/economic-theory-testing-presentation

Esteja ciente de que este método não é perfeito. Apenas confirma que certos eventos ocorrem antes de outros e que esses eventos parecem ter um relacionamento direcional consistente. Isso parece implicar verdadeira causalidade, mas nem sempre é o caso. A chamada da manhã do galo não faz o sol nascer.


4

O que um modelo estatístico pode dizer sobre causalidade? Que considerações devem ser feitas ao se fazer uma inferência causal a partir de um modelo estatístico?

A primeira coisa a deixar claro é que você não pode fazer inferência causal a partir de um modelo puramente estatístico. Nenhum modelo estatístico pode dizer algo sobre causalidade sem suposições causais. Ou seja, para fazer inferência causal, você precisa de um modelo causal .

ZXY

insira a descrição da imagem aqui

P(Y|do(X))=P(Y|X)XY

insira a descrição da imagem aqui

X

Isso pode ficar ainda mais complicado. Você pode ter problemas de erro de medição, os sujeitos podem abandonar o estudo ou não seguir instruções, entre outros problemas. Você precisará fazer suposições sobre como essas coisas estão relacionadas ao processo com inferência. Com dados observacionais "puramente", isso pode ser mais problemático, porque geralmente os pesquisadores não terão uma boa idéia do processo de geração de dados.

Portanto, para extrair inferências causais dos modelos, é necessário julgar não apenas suas suposições estatísticas, mas o mais importante, suas suposições causais. Aqui estão algumas ameaças comuns à análise causal:

  • Dados incompletos / imprecisos
  • Quantidade causal de interesse não bem definida (qual é o efeito causal que você deseja identificar? Qual é a população-alvo?)
  • Confundindo (fatores de confusão não observados)
  • Viés de seleção (auto-seleção, amostras truncadas)
  • Erro de medição (que pode induzir confusão, não apenas ruído)
  • Especificação incorreta (por exemplo, forma funcional incorreta)
  • Problemas de validade externa (inferência incorreta para a população-alvo)

Às vezes, a alegação de ausência desses problemas (ou a alegação de ter resolvido esses problemas) pode ser respaldada pelo design do próprio estudo. É por isso que os dados experimentais geralmente são mais confiáveis. Às vezes, no entanto, as pessoas resolvem esses problemas com a teoria ou por conveniência. Se a teoria for suave (como nas ciências sociais), será mais difícil tirar as conclusões pelo valor de face.

Sempre que você achar que existe uma suposição que não pode ser copiada, avalie a sensibilidade das conclusões a violações plausíveis dessas suposições - isso geralmente é chamado de análise de sensibilidade.


Seria equivalente substituir a seta bidirecional tracejada por duas setas sólidas unidirecionais de um nó adicional?
22418 Taylor

@ Taylor sim, um nó adicional latente (não observado).
Carlos Cinelli
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.