Como você encontra relações causais nos dados?


11

Digamos que eu tenha uma tabela com as colunas "A", "B"

Existe um método estatístico para determinar se "A" faz com que "B" aconteça? Não se pode realmente usar o r de Pearson, porque:

  • apenas testa a correlação entre valores
  • correlação não é causalidade
  • O r de Pearson só pode correlacionar relações lineares

Então, que outras opções eu tenho aqui?


11
Não há. A partir desses dados, você pode demonstrar um alto grau de correlação; você não pode demonstrar causalidade.


11
Causalidade não é apenas algo que você pode espremer a partir dos números ... então, repitam comigo: causalidade não é correlação , a causalidade não é correlação ...
JM não é um estatístico

11
Veja "Causalidade" por Judea Pearl (vencedor do Prêmio Turing 2011).

Respostas:


4

As respostas e comentários até agora estão basicamente corretos no nível prático, mas, para completar, há pesquisas sobre os chamados modelos de causalidade que são baseados na estatística bayesiana e na teoria dos grafos. Portanto, embora na correlação geral de fato não implique causalidade, existem modelos mais complexos que tentam provocar a causalidade. Veja o livro Causality, da Judea Pearl, para mais detalhes, mas isso é uma matemática muito pesada e provavelmente não é o que você deseja.


2

Existem muitos métodos chamados quase-experimentais com os quais você pode argumentar com credibilidade sobre causalidade, mesmo que seus dados sejam observacionais. Esses métodos geralmente dependem de encontrar uma fonte de variação exógena na sua variável de interesse.

Eu acho que uma visão geral boa e acessível é apresentada no livro "Econometria Mostly Harmless". Eles cobrem basicamente todos os métodos quase-experimentais em que as pessoas (economistas) acreditam (pelo menos algumas vezes). Eles não cobrem os métodos mencionados por, por exemplo, trb456 (pelo mesmo motivo: poucos acreditam neles).


1

Para determinar a causa, você precisa executar um teste de randomização. Você pega seus assuntos de teste e escolhe aleatoriamente metade deles para ter a qualidade A e metade para não tê-lo. Você vê se há uma diferença estatisticamente significativa na qualidade B entre os dois grupos.

É importante que você faça a randomização antes de fazer qualquer medição. Em particular, se você receber um conjunto de dados com e já medidos, será impossível determinar a causa.AB

Observe que pode ser impossível fazer o teste de randomização que você deseja fazer. Por exemplo, como você poderia testar se ser alto faz com que você pesasse mais? Certamente, existe uma correlação entre altura e peso, mas você não pode atribuir aleatoriamente um grupo de pessoas a um grupo "alto" e outro a um grupo "baixo". Nesse caso, o teste de randomização não pode ser realizado.


0

Somers trabalha para explicar o relacionamento entre variáveis ​​ordinais de uma maneira que o coeficiente de correlação de pearson faz para conjuntos de dados.


11
Concordo que são necessários mais que números para estabelecer a causalidade. Como o uso de variáveis ​​ordinais entra na questão?
Michael R. Chernick

11
@MichaelChernick Somers 'D é uma medida assimétrica de associação. Ele pode distinguir entre "se estiver chovendo, então é nublado,' de 'se está nublado, então está chovendo' Ele funciona para dados ordinais ou superiores Não estabelece causalidade, mas não estabelecer direcionalidade...
Dave Harris
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.