Exemplos de ensino: Correlação não significa causalidade


74

Há um velho ditado: "Correlação não significa causalidade". Quando ensino, costumo usar os seguintes exemplos padrão para ilustrar esse ponto:

  1. número de cegonhas e taxa de natalidade na Dinamarca;
  2. número de padres na América e alcoolismo;
  3. no início do século XX, observou-se que havia uma forte correlação entre 'Número de rádios' e 'Número de pessoas em manicômios'
  4. e meu favorito: piratas causam aquecimento global .

No entanto, não tenho nenhuma referência para esses exemplos e, embora divertidos, eles são obviamente falsos.

Alguém tem outros bons exemplos?


2
Percorra o Freakonomics para obter ótimos exemplos. A bibliografia deles está repleta de referências.
Stephen Turner


5
Esse gráfico de piratas / aquecimento global é claramente elaborado pelos teóricos da conspiração - qualquer um pode ver que eles deliberadamente traçaram espaçamento uniforme por períodos desiguais para evitar mostrar o recente aumento acentuado de temperatura à medida que os piratas são quase totalmente eliminados. Todos sabemos que, à medida que as temperaturas aumentam, o rum evapora e os piratas não conseguem sobreviver a essas condições. ;-)
AdamV

4
WTF está de acordo com o eixo x naquele gráfico de piratas?
naught101

1
Ou praticamente qualquer coisa que você colocar no Google Correlate , chegue a isso.
conjugateprior

Respostas:


39

Pode ser útil explicar que "causas" é uma relação assimétrica (X causa Y é diferente de Y causa X), enquanto "está correlacionado com" é uma relação simétrica.

Por exemplo, a população de rua e a taxa de criminalidade podem estar correlacionadas, pois ambas tendem a ser altas ou baixas nos mesmos locais. É igualmente válido dizer que a população de sem-teto está correlacionada com a taxa de criminalidade, ou a taxa de criminalidade está correlacionada com a população de sem-teto. Dizer que o crime causa falta de moradia ou populações desalojadas causam crime são afirmações diferentes. E a correlação não implica que ambas sejam verdadeiras. Por exemplo, a causa subjacente pode ser uma terceira variável, como abuso de drogas ou desemprego.

A matemática da estatística não é boa para identificar causas subjacentes, o que requer alguma outra forma de julgamento.


3
Julgamento é uma boa palavra, pois tudo o que podemos observar é correlação. Tudo o que experimentos e / ou estatísticas inteligentes podem fazer é permitir excluir algumas explicações alternativas para o que poderia ter causado um efeito.
Jonas

Muito bom comentário sobre as relações simétricas / assimétricas. Pode-se também afirmar que o aquecimento global faz com que a pirataria aumente.
Andre Holzner

27

Meus favoritos:

1) Quanto mais bombeiros forem enviados ao fogo, mais danos serão causados.

2) Crianças que recebem tutoria obtêm notas piores do que crianças que não recebem tutoria

e (este é o meu melhor)

3) Nos primeiros anos do ensino fundamental, o signo astrológico está correlacionado com o QI, mas essa correlação enfraquece com a idade e desaparece na idade adulta.


2
(@xmjx Forneceu o primeiro exemplo no ano passado.) Adoro o exemplo da astrologia.
whuber

Você pode explicar a amostra com signo astrológico, por favor?
Eugene D. Gubenkov 18/03/19

2
Não importa, eu entendi. Isso tem a ver com a diferença de idade entre os nascidos no início do ano e os nascidos no final. Agradável.
Eugene D. Gubenkov 18/03/19

24

Eu sempre gostei deste:

limões vs mortes

fonte: http://pubs.acs.org/doi/abs/10.1021/ci700332k


1
Legal, mas não vejo ninguém tentando tirar uma conclusão de causalidade por lá. Ou os motoristas de caminhão de limão mexicanos são notoriamente perigosos quando atravessam a fronteira?
27410 AdamV

2
Obviamente, um efeito colateral imprevisto da profusão de leis de limão nos EUA. Por exemplo, consulte: en.wikipedia.org/wiki/Lemon_law
Thylacoleo

11
Um colega meu analisou os dados para isso no período pós-2000 e descobriu que o relacionamento se mantinha razoavelmente "fora da amostra", o que é ainda mais perturbador ...
shabbychef


Uma racionalização simples seria que ambos estão diminuindo com o tempo. Os dados pós-2000 suportam isso? PS, Box Hunter e Hunter (veja abaixo) explicam o exemplo das cegonhas da mesma maneira: ambos aumentaram com o tempo no período em questão.
Emil Friedman

23
  1. Às vezes, a correlação é suficiente. Por exemplo, no seguro de carro, os motoristas do sexo masculino estão correlacionados com mais acidentes; portanto, as companhias de seguros cobram mais. Não há como você realmente testar isso quanto à causalidade. Você não pode alterar os sexos dos drivers experimentalmente. O Google faturou centenas de bilhões de dólares não se importando com a causa.

  2. Para encontrar a causalidade, você geralmente precisa de dados experimentais, não de dados observacionais. Embora, na economia, eles usem frequentemente "choques" observados no sistema para testar a causa, como se um CEO morresse repentinamente e o preço das ações aumentasse, você pode assumir a causa.

  3. A correlação é uma condição necessária, mas não suficiente, para a causação. Mostrar causalidade requer uma contrafação.


1
Eu gosto do primeiro exemplo que você dá. Isso certamente fará com que os alunos falem;)
csgillespie

1
Há uma discussão interessante de Steve Steinberg em seu blog aqui: blog.steinberg.org/?p=11 sobre algumas das implicações de 1 e aonde isso pode levar em termos de IA fraca.
1933 Amos

Alguém poderia expandir um pouco a última frase?
naught101

4
X(1,1)Y(0,1)Y=1X2XsXY

18

Eu tenho alguns exemplos que eu gosto de usar.

  1. Ao investigar a causa do crime na cidade de Nova York nos anos 80, quando tentavam limpar a cidade, um acadêmico encontrou uma forte correlação entre a quantidade de crimes graves cometidos e a quantidade de sorvete vendido pelos vendedores ambulantes! (Qual é a causa e qual é o efeito?) Obviamente, havia uma variável não observada causando ambas. Os verões são quando o crime é o maior e quando mais sorvete é vendido.

  2. O tamanho da palma da mão está negativamente correlacionado com quanto tempo você viverá (realmente!). De fato, as mulheres tendem a ter palmas menores e a viver mais.

  3. [Meu favorito] Ouvi falar de um estudo de alguns anos atrás, que descobriu que a quantidade de refrigerante que uma pessoa bebe está correlacionada positivamente com a probabilidade de obesidade.(Eu disse a mim mesmo - isso faz sentido, pois deve ser devido a pessoas que bebem refrigerante açucarado e recebem todas essas calorias vazias.) Alguns dias depois, mais detalhes foram revelados. Quase toda a correlação ocorreu devido ao aumento do consumo de refrigerantes dietéticos. (Isso estragou minha teoria!) Então, qual é a causa? Os refrigerantes da dieta fazem com que alguém engorde, ou um ganho de peso causa um aumento no consumo de refrigerantes? (Antes de concluir que é o último, consulte o estudo em que um experimento controlado com ratos mostrou que o grupo que recebeu um iogurte com adoçante artificial ganhou mais peso do que o grupo que recebeu o iogurte normal.) Duas referências: Beba mais refrigerante diet , Ganhar mais peso? ; Refrigerantes dietéticos associados à obesidade. Eu acho que eles ainda estão tentando resolver isso.


4
O último é um pouco mais complicado do que você o apresenta, mas eu concordo que muitas das associações observacionais encontradas entre refrigerante / refrigerante dietético e obesidade devem ser encaradas com um olhar crítico. Teoricamente, alguns têm postulado que os falsos substitutos de açúcar / gordura têm outros efeitos fisiológicos além da ingestão simples de calorias. Veja, por exemplo, este experimento em ratos e gorduras sintéticas (retirado do blog Freakonomics).
Andy W

18

O número de prêmios Nobel conquistados por um país (ajustando-se à população) correlaciona-se bem com o consumo per capita de chocolate. ( New England Journal of Medicine )

insira a descrição da imagem aqui


2
+1 Fiquei muito desapontado com o NEJM quando eles publicaram isso #
MattBagg

5
Parece também se correlacionar bastante bem com a proximidade da Suécia ..
naught101

2
O consumo de chocolate (per capita) também se correlaciona significativamente com o número per capita de assassinos em série. replicatedtypo.com/…
Harvey Motulsky

2
Perguntei a três ganhadores do prêmio Nobel que eu (vagamente) conheço e os três disseram que comeram muito mais chocolate do que a maioria de seus colegas. Obviamente, essas respostas surgiram após a leitura do artigo da NEJM!
Harvey Motulsky

4
@ MattBagg Foi publicado como "Notas Ocasionais" e obviamente não deve ser levado a sério.
Pascal


9

Há dois aspectos desse problema post hoc ergo propter hoc que eu gosto de abordar: (i) causalidade reversa e (ii) endogeneidade

Um exemplo de causalidade reversa "possível": bebida social e ganhos - os bebedores ganham mais dinheiro de acordo com Bethany L. Peters e Edward Stringham (2006. "Nada de bebida? Você pode perder: por que os bebedores ganham mais dinheiro do que os que não bebem", Journal of Labor Research, Transaction Publishers, volume 27 (3), páginas 411-421, junho). Ou as pessoas que ganham mais dinheiro bebem mais porque têm uma maior renda disponível ou devido ao estresse? Este é um ótimo artigo para discutir por todos os tipos de razões, incluindo erro de medição, viés de resposta, causalidade, etc.

Um exemplo de endogeneidade "possível": a Equação de Mincer explica os ganhos de log por educação, experiência e experiência ao quadrado. Há uma longa literatura sobre esse tópico. Os economistas do trabalho querem estimar a relação causal da educação sobre os ganhos, mas talvez a educação seja endógena porque a "habilidade" pode aumentar a quantidade de educação que um indivíduo possui (diminuindo o custo de obtê-la) e pode levar a um aumento nos ganhos, independentemente de o nível de educação. Uma solução potencial para isso pode ser uma variável instrumental. O livro de Angrist e Pischke, Mostly Harmless Econometrics, trata disso e relaciona os tópicos com grande detalhe e clareza.

Outros exemplos bobos aos quais não tenho apoio incluem: - Número de televisões per capita e número de taxas de mortalidade. Então, vamos enviar TVs para países em desenvolvimento. Obviamente, ambos são endógenos a algo como o PIB. - Número de ataques de tubarão e vendas de sorvetes. Ambos são endógenos à temperatura, talvez?

Também gosto de contar a piada terrível sobre o lunático e a aranha. Um lunático está vagando pelos corredores de um asilo com uma aranha que está carregando na palma da mão. Ele vê o médico e diz: "Olha, doutor, eu posso falar com aranhas. Observe isso." Aranha, vá para a esquerda! "A aranha se move para a esquerda. Ele continua:" Aranha, vá para a direita. " O médico responde: "Interessante, talvez devêssemos conversar sobre isso na próxima sessão de grupo." Os lunáticos retrucam: "Isso não é nada, doc. Observe isso. ”Ele puxa cada uma das pernas da aranha uma por uma e depois grita:“ Aranha, vá para a esquerda! ”A aranha fica imóvel na palma da mão e o lunático vira-se para o médico e conclui:“ Se você arrancar a aranha, pernas, ele ficará surdo. "


8

O melhor que me ensinaram foi o número de afogamentos e as vendas de sorvetes podem estar altamente correlacionadas, mas isso não implica que uma causa a outra. Afogamentos e vendas de sorvete são obviamente mais altos nos meses de verão, quando o tempo está bom. A terceira variável, também conhecida como clima bom, as causa.


6

Como generalização de 'piratas causam aquecimento global': escolha duas quantidades que estão (monotonicamente) aumentando ou diminuindo com o tempo e você deve ver alguma correlação.


6

Você pode gastar alguns minutos no Google Correlate e criar todos os tipos de correlações espúrias.


1
Embora esse link possa responder à pergunta, é melhor incluir aqui as partes essenciais da resposta e fornecer o link para referência. As respostas somente para links podem se tornar inválidas se a página vinculada for alterada.
gung - Restabelece Monica

1
@gung você está falando sério? O link é para um aplicativo, não para uma página simples que descreve uma resposta. A resposta se tornaria inválida se a página vinculada mudar de qualquer maneira, pois a ferramenta se tornaria indisponível (no formulário atual).
Jerome Baum

6

Eu trabalho com alunos no ensino de correlação versus causalidade nas minhas aulas de Álgebra Um. Examinamos muitos exemplos possíveis. Encontrei o artigo Bebês em pacotes e sorvete perigoso: quebra-cabeças de correlação do professor de matemática de fevereiro de 2013 para ser útil. Eu gosto da idéia de falar sobre "variáveis ​​ocultas". Além disso, esse desenho animado é um começo de conversa fofo:

insira a descrição da imagem aqui

Identificamos a variável independente e dependente no desenho animado e falamos sobre se este é um exemplo de causalidade, se não por que não.


4

Eu li (há muito tempo) de um exemplo interessante sobre um declínio nas taxas de natalidade (ou taxas de fertilidade, se você preferir essa medida), especialmente nos EUA, a partir do início dos anos 60, já que os testes de armas nucleares estavam em alta histórica. (em 1961, a maior bomba nuclear já detonada foi testada na URSS). As taxas continuaram a ser definidas até o final do século XX, quando a maioria dos países finalmente parou de fazer isso.

Não consigo encontrar uma referência que combine esses números agora, mas este artigo da Wikipedia tem números sobre os números de testes de armas nucleares por país.

Certamente, poderia fazer mais sentido observar a correlação da taxa de natalidade com a introdução e a legalização da pílula anticoncepcional 'coincidentemente' a partir do início dos anos 1960. (Apenas em alguns estados primeiro, depois em todos os estados somente para mulheres casadas, depois para solteiros e depois em geral), mas mesmo isso poderia ser apenas parte da causa; muitos outros aspectos de igualdade, mudanças econômicas e outros fatores desempenham um papel significativo.


Exemplo interessante, porque parece, à primeira vista, uma provável relação de causa e efeito, diferentemente de muitos dos exemplos mais bobos.
Bossykena

1
O que eu gosto é que você pode provocar muita discussão sobre se o "efeito" era realmente afetar a fertilidade (no sentido médico da capacidade de conceber) ou era social ("eu não quero levar uma criança a essa situação tão ruim"). mundo"). Em seguida, solte a bomba sobre a pílula, se ninguém mais a trouxe. E depois aponte que mesmo isso pode ser apenas um fator possível e discuta alguns dos outros.
23410 AdamV

4

Uma correlação por si só nunca pode estabelecer um nexo de causalidade. David Hume (1771-1776) argumentou com bastante eficácia que não podemos obter certo conhecimento de cauasalidade por meios puramente empíricos. Kant tentou resolver isso, a página da Wikipedia para Kant parece resumir bastante bem:

Kant acreditava estar criando um compromisso entre os empiristas e os racionalistas. Os empiristas acreditavam que o conhecimento é adquirido apenas através da experiência, mas os racionalistas sustentavam que esse conhecimento é aberto à dúvida cartesiana e que apenas a razão nos fornece conhecimento. Kant argumenta, no entanto, que usar a razão sem aplicá-la à experiência só levará a ilusões, enquanto a experiência será puramente subjetiva sem antes ser incluída na razão pura.

Em outras palavras, Hume nos diz que nunca podemos saber que existe um relacionamento causal apenas observando uma correlação, mas Kant sugere que podemos usar nossa razão para distinguir entre correlações que implicam um vínculo causal daquelas que não o fazem. Eu não acho que Hume teria discordado, desde que Kant estivesse escrevendo em termos de plausibilidade, e não de certo conhecimento.

Em suma, uma correlação fornece evidência circunstancial que implica um nexo de causalidade, mas o peso da evidência depende muito das circunstâncias particulares envolvidas, e nunca podemos ter certeza absoluta. A capacidade de prever os efeitos das intervenções é uma maneira de obter confiança (não podemos provar nada, mas podemos refutar por evidências observacionais; portanto, pelo menos tentamos falsificar a teoria de um nexo de causalidade). Ter um modelo simples que explica por que devemos observar uma correlação que também explica outras formas de evidência é outra maneira de aplicar nosso raciocínio, como sugere Kant.

Advertência: É perfeitamente possível que eu tenha entendido mal a filosofia, no entanto, continua a ser o caso de uma correlação nunca fornecer prova de um nexo de causalidade.


2
Pelo que vale, na terminologia atual, acho que se deve ler Kant como afirmando, por exemplo, na Segunda Analogia, que quaisquer que sejam as correlações que você observe, há algum gráfico causal que as gera. Tanto quanto sei, ele não tinha um método específico para identificar a estrutura, mas assumiu que ela deveria estar totalmente conectada (porque 'todo evento tem uma causa'). Nesse sentido, ele é contemporâneo: a inferência causal requer uma mistura de suposições causais, por exemplo, expressas através de um gráfico e regularidades observadas nos dados. E normalmente você pode nem evitar a primeira parte nem induzi-la a partir de dados
conjugateprior

+1 bem explicado! Talvez eu seja muito bayesiano, mas não estou muito preocupado com a idéia de que não podemos ter um conhecimento certo de qualquer relação causal.
Dikran Marsupial



3

A contagem de espermatozóides nos machos das aldeias eslovenas e o número de ursos (também na Eslovênia) mostram uma correlação negativa. Algumas pessoas acham isso muito preocupante. Vou tentar obter o estudo que fez isso.


3

Estive recentemente em uma conferência e um dos palestrantes deu esse exemplo muito interessante (embora o objetivo fosse ilustrar outra coisa):

  • Americanos e ingleses comem muita comida gorda. Há uma alta taxa de doenças cardiovasculares nos EUA e no Reino Unido.

  • Os franceses comem muita comida gordurosa, mas têm uma baixa (er) taxa de doenças cardiovasculares.

  • Americanos e ingleses bebem muito álcool. Há uma alta taxa de doenças cardiovasculares nos EUA e no Reino Unido.

  • Os italianos bebem muito álcool, mas, novamente, eles têm uma baixa (er) taxa de doenças cardiovasculares.

A conclusão? Coma e beba o que quiser. E você tem uma chance maior de sofrer um ataque cardíaco se falar inglês!


3
Também é um bom exemplo da falácia ecológica (ou seja, fazer inferências sobre o nível individual a partir de dados em nível de grupo).
Jeromy Anglim


3

Outro exemplo de correlação que usei é o grande aumento no número de pessoas que comem alimentos orgânicos e o aumento no número de crianças diagnosticadas com autismo nos EUA. Há um gráfico de paródia na Web - gráfico de paródia de alimentos orgânicos de autismo


3

http://tylervigen.com/

Isso mostra uma tonelada de correlações que obviamente não têm nada a ver com causalidade - ou você tem alguma boa idéia de qual é a causa da correlação de Age of Miss America que se correlaciona com assassinatos por vapor, vapores quentes e objetos quentes?

??


2

Ensinar "correlação não significa causalidade" não ajuda ninguém, porque no final do dia todos os argumentos dedutivos se baseiam em parte na correlação.

Humanos são muito ruins em aprender a não fazer algo.

O objetivo deve ser construtivo: sempre pense em alternativas às suas suposições iniciais que possam produzir os mesmos dados.


1
Isso não responde à pergunta: talvez deva ser entendido como um comentário.
whuber

2

Bem, meu Prof. usou isso na classe de probabilidade introdutória:

1) O tamanho do sapato está correlacionado com a capacidade de leitura

2) O ataque de tubarão está relacionado à venda de sorvete.


2

Quanto mais carros de bombeiros forem enviados para o fogo, maiores serão os danos.


1
O único problema com isso como exemplo é que há uma clara causa inversa.
naught101

1

Eu acho que um paradigma melhor pode ser uma causa que requer correlação associada a um mecanismo credível e de preferência comprovado. Eu acho que a palavra implicar deve ser usada com moderação nesse contexto, pois tem vários significados, incluindo o de sugestão.


1

O exemplo das cegonhas está na página 8 da primeira edição (1978) do livro de Box, Hunter & Hunter, intitulado "Statistics for Experimenters ..." (Wiley). Não sei se está na 2ª edição. Eles identificam a cidade como Oldenburg e o período de 1930-1936.

Eles se referem à Ornithologische Monatsberichte , 44 , n. 2, Jahrgang, 1936, Berlim, e 48 , n. 1, Jahrgang, 1940, Berlim, e Statistiches Jahrbuch Deutscher Gemeinden , 27-33, 1932-1938, Gustav Fischer, Jena.


0

Eu vi um engraçado em um artigo.

A produção de manteiga em Bangladesh tem uma das maiores correlações com o S&P 500 em um período de dez anos.

http://www.forbes.com/sites/davidleinweber/2012/07/24/stupid-data-miner-tricks-quants-fooling-theself-the-economic-indicator-in-your-pants/


2
Hã? O gráfico mostra o S&P ao longo do tempo. O título fala sobre a produção de manteiga e queijo, que não são visíveis no gráfico. ???
Harvey Motulsky


3
OK, agora eu vejo. O gráfico mostra a previsão de um modelo de regressão múltipla, mostrando que a inclusão de três variáveis ​​tolas faz um bom trabalho ao fazer o modelo prever mudanças no SP500 ao longo do tempo. Este é um bom exemplo de ajuste excessivo na regressão múltipla e mostra indiretamente que a correlação (ou melhor ajuste de um modelo sofisticado) não implica causalidade.
Harvey Motulsky

0

Aqui está um perfeito. E, infelizmente, pode ser usado como um excelente ponto de ensino, porque nem a equipe do Washington Post nem os Centros de Controle e Prevenção de Doenças demonstram qualquer indício de que o artigo seja uma peça de sátira em The Onion.

https://www.washingtonpost.com/health/trumps-presidency-may-be-making-latinos-sick/2019/07/19/4e89b9f0-a97f-11e9-9214-246e594de5d5_story.html?utm_term=.9dd329c2e837


3
Resuma o que é dito por trás do link, não apenas para que você julgue errado.
cbeleites

Desculpa. Mas eu pensei que este era auto-explicativo.
Mark C.

2
O link é bom como referência à fonte, mas você não deve presumir que todos possam realmente lê-lo (ou não sem muita trabalheira). Lembre-se de que esses links estão sujeitos à podridão de links e nem todos os jornais atendem a todas as regiões geográficas (por exemplo, existem jornais dos EUA que decidiram que não vale a pena incomodar o cumprimento do RGPD da UE e, consequentemente, bloquearão os leitores com o IP da UE. endereço).
cbeleites 29/07

-2

Alguém disse que a correlação pode não significar causalidade, mas certamente pode ser uma boa dica :)

Ok, deixando de lado a parte divertida, o que exatamente é causalidade? Temos certeza de que os piratas não causam aquecimento global?

Contra-intuitivo, mas o que é tomado como causa e o que como efeito (em um estudo de correlação não é tão claro). É claro que muitas vezes ambos podem ser apenas efeitos de causa comum (e, portanto, correlacionados)

Tudo se resume ao método de determinação da causa.

Esta é a causa (trocadilho intencional) do ditado:

Existem pequenas mentiras. Há grandes mentiras E há estatísticas.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.