Quando a correlação pode ser útil sem causalidade?


27

Um ditado popular de muitos estatísticos é "Correlação não implica causalidade". Isso certamente é verdade, mas uma coisa que parece implícita aqui é que a correlação tem pouco ou nenhum valor. Isso é verdade? É inútil ter conhecimento de que duas variáveis ​​estão correlacionadas?

Não consigo imaginar que seja esse o caso. Não estou terrivelmente familiarizado com a análise preditiva, mas parece que, se Xfor um preditor Y, seria útil prever valores futuros Ybaseados em X, independentemente da causalidade.

Estou incorreto ao ver o valor na correlação? E se não, em que situações um estatístico ou cientista de dados pode usar correlação sem causalidade?


5
Na minha opinião, a frase "causalidade não implica correlação" é muitas vezes mal utilizada para sugerir que as estatísticas nem sempre devem ser confiáveis ​​(verdadeiras, mas nem sempre devido à falta de causalidade). Fico tão irritado quando vejo as pessoas largarem essa frase em referência ao motivo pelo qual uma análise preditiva está errada. Por exemplo, facebook.com/notes/mike-develin/debunking-princeton/… é um ótimo exemplo de uma análise terrível E de um desmascaramento terrível de uma análise terrível.
Cliff AB

10
Por exemplo, suponha que você ache que morar em uma determinada cidade está correlacionado com a morte prematura. Você não pode concluir que morar naquela cidade causa morte prematura, nem que levar as pessoas a se mudarem dessa cidade os ajudaria a viver mais. (Talvez a cidade seja atraente para pessoas doentes, por algum motivo.) Mas se você é um atuário, seria perfeitamente justificável querer cobrar prêmios de seguro de vida mais altos aos membros dessa cidade - conhecer essa correlação pode ser muito valioso para você. vocês.
Nate Eldredge

2
Mais pessoas morrem no sul da Inglaterra, @NateEldredge. Isso porque as pessoas se aposentam lá.
TRiG

11
A ausência de correlação carrega mais significado, sem dúvida.
Raphael

Referência obrigatória do xkcd: xkcd.com/552
vsz

Respostas:


32

A correlação (ou qualquer outra medida de associação) é útil para previsão, independentemente da causa. Suponha que você avalie uma associação clara e estável entre duas variáveis. O que isso significa é que conhecer o nível de uma variável também fornece algumas informações sobre outra variável de interesse, que você pode usar para ajudar a prever uma variável como uma função da outra e, o mais importante, executar alguma ação com base nessa previsão. . Tomar medidas envolve alterar uma ou mais variáveis, como ao fazer uma recomendação automatizada ou empregar alguma intervenção médica. Obviamente, você poderia fazer melhores previsões e agir com mais eficácia se tivesse mais conhecimento das relações diretas ou indiretas entre duas variáveis. Esse insight pode envolver outras variáveis, incluindo as espaciais e as temporais.


4
As correlações nem sempre são úteis para a previsão. Nos casos de causalidade reversa, existem aspectos temporais importantes que nem sempre podem ser controlados. Estamos enfrentando isso o tempo todo com a doença de Alzheimer. Estamos constantemente batendo a cabeça na parede, tentando discernir: os biomarcadores que encontramos nos cérebros afetados pela DA causam a doença ou são causados ​​pela doença?
Adamo

11
@AdamO Acho que minha resposta cobre essa base na última frase ou duas, então não discordo de você.
Equilíbrio Brash

11
O problema com a causalidade realmente surge apenas se você estiver tentando interpretar seu modelo preditivo. (É claro que é com isso que muitas vezes estamos interessados ​​em ciência). Quando vemos que o biomarcador Aé um bom indicador, é muito tentador afirmar que essa também é a causa da doença - e, como mencionado nos comentários, é muito fácil chegar a conclusões erradas. Se queremos apenas fazer previsões, por exemplo, dizer se um paciente tem a doença ou não, não há problemas com correlações.
cel

11
Isso é falso e aqui está apenas um exemplo do porquê. Se agir de acordo com suas previsões envolve alterar uma variável e esperar que o alvo também mude, mas, de fato, não existe um vínculo direto ou o relacionamento causal ocorre de outra maneira, você tomará a ação errada. E antes que você diga "mas nesse exemplo você está interpretando o modelo", eu digo, "em que cenário você NÃO extrairia inferência mesmo de um modelo destinado à previsão?" Resposta: quando você não deposita muita confiança nos relacionamentos causais que seu modelo implica.
Equilíbrio Brash

11
@BrashEquilibrium: Existem várias maneiras de agir sobre uma previsão que não envolve a alteração das variáveis ​​usadas para obter a previsão de qualquer maneira. Interessado em saber se sua loja deve estocar luvas de lã? Saber quanto sorvete você vende ultimamente poderia (na ausência hipotética de fontes de dados mais diretas, é claro) ser um bom indicador.
Ilmari Karonen

17

Já existem muitos bons pontos aqui. Deixe-me descompactar sua afirmação de que "parece que, se Xfor um preditor de Y, seria útil prever valores futuros Ybaseados em X, independentemente da causalidade" um pouco. Você está correto: se tudo o que você deseja é poder prever um Yvalor desconhecido a partir de um Xvalor conhecido e de um relacionamento estável e conhecido, o status causal desse relacionamento é irrelevante. Considere isso:

  • Você pode prever um efeito de uma causa. Isso é intuitivo e incontroverso.
  • Você também pode prever uma causa a partir do conhecimento de um efeito. Algumas, mas muito poucas, pessoas que sofrem de câncer de pulmão nunca fumaram. Como resultado, se você sabe que alguém tem câncer de pulmão, é possível prever com boa confiança que ele é / era fumante, apesar do fato de que o fumo é causal e o câncer é o efeito. Se a grama no quintal estiver molhada e o aspersor não estiver funcionando, você pode prever que choveu, mesmo que a chuva seja a causa e a grama molhada seja apenas o efeito. Etc.
  • Você também pode prever um efeito desconhecido a partir de um efeito conhecido da mesma causa. Por exemplo, se Billy e Bobby são gêmeos idênticos e nunca conheci Billy, mas sei que Bobby tem 178 cm, posso prever que Billy também tem 178 cm com boa confiança, apesar do fato de que nem a altura de Billy causa a altura de Bobby nem a altura de Bobby causa a altura de Billy.

7
Apenas para dar nomes às suas categorias: Seus três tipos de previsão são chamados (em ordem) dedução , abdução e indução .
Neil G

12

Eles não estão exagerando na importância da correlação. Só que a tendência é interpretar correlação como causação.

Tome a amamentação como o exemplo perfeito. As mães quase sempre interpretam os achados (estudos observacionais) sobre a amamentação como uma sugestão sobre se devem ou não amamentar. É verdade que, em média, os bebês amamentados tendem a ser adultos mais saudáveis ​​em ordem de idade, mesmo depois de controlar a idade materna e paterna longitudinal, o status socioeconômico etc. Isso não implica que apenas a amamentação seja responsável pela diferença, embora possa parcialmente desempenham um papel no desenvolvimento inicial da regulação do apetite. A relação é muito complexa e pode-se facilmente especular sobre toda uma série de fatores mediadores que podem estar subjacentes às diferenças observadas.

Muitos estudos buscam associações para garantir uma compreensão mais profunda do que está acontecendo. A correlação não é inútil, apenas algumas etapas abaixo da causalidade e é preciso estar ciente de como relatar descobertas para evitar erros de interpretação.


9

Você está certo de que a correlação é útil. A razão pela qual os modelos causais são melhores que os modelos associativos é que - como Pearl diz - eles são oráculos para intervenções. Em outras palavras, eles permitem que você raciocine hipoteticamente. Um modelo causal responde à pergunta "se eu fizesse X acontecer, o que aconteceria com Y?"

Mas você nem sempre precisa raciocinar hipoteticamente. Se o seu modelo é única vai ser usado para responder a perguntas como "se eu observar X, o que eu sei sobre Y?", Em seguida, um modelo associativo é tudo que você precisa.


3
Oracles For Interventions seria um bom nome para uma banda.
Malvolio

@ Malvolio: lol, é uma maneira inesquecivelmente sucinta de descrever modelos causais. Eu realmente gosto dessa frase.
25415 Neil G

4

Você está certo de que a correlação é útil para previsão. Também é útil para entender melhor o sistema em estudo.

Um caso em que o conhecimento sobre o mecanismo causal é necessário é se a distribuição de destino foi manipulada (por exemplo, algumas variáveis ​​foram "forçadas" a aceitar determinados valores). Um modelo baseado em correlações apenas terá um desempenho ruim, enquanto um modelo que usou informações causais deve ter um desempenho muito melhor.


2

A correlação é uma ferramenta útil se você tiver um modelo subjacente que explique a causalidade.

Por exemplo, se você souber que aplicar uma força a um objeto influencia seu movimento, é possível medir a correlação entre a força e a velocidade e a força e a aceleração. A correlação mais forte (com a aceleração) será explicativa por si só.

Em estudos observacionais, a correlação pode revelar certos padrões comuns (como a amamentação e a saúde posteriores) que podem servir de base para uma exploração científica adicional por meio de um projeto experimental adequado que pode confirmar ou rejeitar a causalidade (por exemplo, talvez em vez de a amamentação ser a causa). conseqüência para um certo quadro cultural).

Portanto, a correlação pode ser útil, mas raramente pode ser conclusiva.


2

Como você afirmou, a correlação sozinha tem muita utilidade, principalmente previsão.

UMABUMAB

Por exemplo, todos esses estudos que mostram que o uso pesado de café em idosos está correlacionado com sistemas cardiovasculares saudáveis ​​são, em minha opinião, indubitáveis ​​motivados por pessoas que desejam justificar seus hábitos pesados ​​de café. No entanto, dizer que beber café está correlacionado apenas com corações mais saudáveis, em vez de causais, não ajuda em nada a responder à nossa verdadeira questão de interesse: seremos mais saudáveis ​​se tomarmos mais café ou reduzirmos? Pode ser muito frustrante encontrar resultados muito interessantes (o café está vinculado a corações mais saudáveis!), Mas não ser capaz de usar essas informações para tomar decisões (ainda não sabemos se você deve tomar café para ser mais saudável), e quase sempre há uma tentação de interpretar correlação como causalidade.

A menos que você só goste de apostar (ou seja, você deseja prever, mas não influenciar).


2

Há valor na correlação, mas deve-se procurar mais evidências para concluir a causa.

Anos atrás, houve um estudo que resultou em "o café causa câncer". Assim que ouvi isso no noticiário, contei à minha esposa "correlação falsa". Acabou que eu estava correto. A população de café com 2-3 xícaras por dia teve uma taxa mais alta de fumantes do que os que não bebiam café. Depois que os coletores de dados descobriram isso, eles retiraram seus resultados.

Outro estudo interessante antes do boom e do colapso da habitação mostrou racismo no processamento de hipotecas. A alegação era de que os candidatos negros estavam sendo rejeitados em uma taxa mais alta do que os brancos. Mas outro estudo analisou as taxas de inadimplência. Proprietários de casas negras estavam inadimplentes na mesma proporção de brancos. Se o aplicativo preto estivesse sendo mantido em um padrão mais alto, sua taxa de inadimplência seria realmente muito menor. Nota: esta anedota foi compartilhada pelo autor Thomas Sowell em seu livro The Housing Boom and Bust

A mineração de dados pode facilmente produzir dois conjuntos de dados que mostram alta correlação, mas para eventos que não podem estar relacionados. No final, é melhor olhar para os estudos enviados com um olhar muito crítico. Encontrar correlações falsas nem sempre é fácil, é um talento adquirido.


Gostei de ler esta resposta. Parece, contudo, abordar o inverso da pergunta: "É inútil ter conhecimento de que duas variáveis ​​estão correlacionadas? ... Em que situações um estatístico ou cientista de dados pode usar correlação sem causalidade?"
whuber

11
"Os proprietários de imóveis pretos estavam inadimplentes com a mesma taxa de brancos. Se a aplicação de preto estivesse sendo mantida em um padrão mais alto, sua taxa de inadimplência seria realmente muito menor". está tirando conclusões precipitadas. É exatamente esse problema; os candidatos negros serão estatisticamente diferentes dos candidatos brancos e, se houver mais negros em um grupo com maior probabilidade de aceitar inadimplência hipotecária, candidatos negros com a mesma taxa de inadimplência indicariam discriminação. Separar os efeitos confusos é difícil.
28815 prosfilaes

Como afirmei, a anedota veio de um conhecido estudioso negro. E foi preciso muito mais do que um parágrafo para discutir no livro que referi.
JTP

1

A correlação é um fenômeno observável. Você pode medir isso. Você pode atuar nessas medidas. Por si só, pode ser útil.

No entanto, se tudo o que você tem é uma correlação, você não tem garantia de que uma alteração efetivamente terá efeito (veja os famosos gráficos que vinculam a ascensão dos iPhones à escravidão no exterior). Isso apenas mostra que existe uma correlação lá e, se você ajustar o ambiente (agindo), essa correlação ainda pode estar lá.

No entanto, esta é uma abordagem muito sutil. Em muitos cenários, queremos ter uma ferramenta menos sutil: causalidade. Causalidade é uma correlação combinada com uma alegação de que se você ajustar seu ambiente agindo de uma maneira ou de outra, deve-se esperar que a correlação ainda esteja lá. Isso permite um planejamento de longo prazo, como o encadeamento de 20 ou 50 eventos causais consecutivos para identificar um resultado útil. Fazer isso com 20 ou 50 correlações geralmente deixa um resultado muito confuso e sombrio.

Como um exemplo de como elas foram úteis no passado, considere a ciência ocidental versus a Medicina Tradicional Chinesa (MTC). A ciência ocidental se concentra principalmente em "Desenvolver uma teoria, isolar um teste que possa demonstrar a teoria, executar o teste e documentar os resultados". Isso começa com "desenvolver uma teoria", que está altamente ligada à causalidade. O TCM deu a volta, começando com "elaborar um teste que possa fornecer resultados úteis, executar o teste, identificar correlações na resposta". O foco é mais nas correlações.

Atualmente, os ocidentais tendem a preferir pensar quase inteiramente em termos de causalidade, de modo que o valor do estudo da correlação é mais difícil de espionar. No entanto, encontramos em todos os cantos da nossa vida. E nunca esqueça que, mesmo na ciência ocidental, as correlações são uma ferramenta importante para identificar quais teorias vale a pena explorar!

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.