O que um modelo estatístico pode dizer sobre causalidade? Que considerações devem ser feitas ao se fazer uma inferência causal a partir de um modelo estatístico?
A primeira coisa a deixar claro é que você não pode fazer inferência causal a partir de um modelo puramente estatístico. Nenhum modelo estatístico pode dizer algo sobre causalidade sem suposições causais. Ou seja, para fazer inferência causal, você precisa de um modelo causal .
ZXY
P(Y|do(X))=P(Y|X)XY
X
Isso pode ficar ainda mais complicado. Você pode ter problemas de erro de medição, os sujeitos podem abandonar o estudo ou não seguir instruções, entre outros problemas. Você precisará fazer suposições sobre como essas coisas estão relacionadas ao processo com inferência. Com dados observacionais "puramente", isso pode ser mais problemático, porque geralmente os pesquisadores não terão uma boa idéia do processo de geração de dados.
Portanto, para extrair inferências causais dos modelos, é necessário julgar não apenas suas suposições estatísticas, mas o mais importante, suas suposições causais. Aqui estão algumas ameaças comuns à análise causal:
- Dados incompletos / imprecisos
- Quantidade causal de interesse não bem definida (qual é o efeito causal que você deseja identificar? Qual é a população-alvo?)
- Confundindo (fatores de confusão não observados)
- Viés de seleção (auto-seleção, amostras truncadas)
- Erro de medição (que pode induzir confusão, não apenas ruído)
- Especificação incorreta (por exemplo, forma funcional incorreta)
- Problemas de validade externa (inferência incorreta para a população-alvo)
Às vezes, a alegação de ausência desses problemas (ou a alegação de ter resolvido esses problemas) pode ser respaldada pelo design do próprio estudo. É por isso que os dados experimentais geralmente são mais confiáveis. Às vezes, no entanto, as pessoas resolvem esses problemas com a teoria ou por conveniência. Se a teoria for suave (como nas ciências sociais), será mais difícil tirar as conclusões pelo valor de face.
Sempre que você achar que existe uma suposição que não pode ser copiada, avalie a sensibilidade das conclusões a violações plausíveis dessas suposições - isso geralmente é chamado de análise de sensibilidade.