Se a correlação não implica causalidade, qual é o valor de conhecer a correlação entre duas variáveis?


11

Digamos que, como proprietário de uma empresa (ou marketing ou alguém que entenda um gráfico de dispersão), seja mostrado um gráfico de dispersão de duas variáveis: número de anúncios versus número de vendas de produtos por mês nos últimos 5 anos (ou outro período de tempo para que você tenho mais amostras. Acabei de inventar este).

Agora ele vê o gráfico de dispersão e é informado que o coeficiente de correlação (corr) é:

  1. 1 ou
  2. 0,5 ou
  3. 0,11 ou
  4. 0 ou
  5. -0,75 ou
  6. -1

Basicamente, qualquer valor válido para corr

Pergunta: O que isso significa para um tomador de decisão ou qualquer consumidor do gráfico de dispersão? Que decisões podem ser tomadas baseadas nisso?

Ou seja: Qual é a utilidade de ver correlação entre duas variáveis ​​e o que se pode fazer com essas informações isoladamente? É apenas para ver o que fazer e não considerar para inclusão na análise de regressão ou existe um uso mais prático?

Apenas curioso, eu sempre trabalhei com essa técnica, mas me disseram que a correlação por si só não é muito útil - então, qual é o uso?

Respostas:


12

Algumas reflexões:

  • O velho argumento de que a correlação não é causalidade é apenas metade da história. A correlação pode não ser causal, mas alguma forma de associação entre as duas variáveis ​​é um passo necessário no caminho para mostrar a causalidade, e a correlação pode ajudar a mostrar isso.
  • Ajuda a apontar tendências. Mostre ao proprietário da empresa, e eles podem dizer "Sim, isso faz sentido, você vê que o Widget X e o Widget Y acabam sendo usados ​​por um grupo específico de pessoas, mesmo que não sejam realmente relacionados. Ou podem dizer "isso é ... estranho", quando você solicitou uma investigação mais aprofundada.
  • Olhe isto deste modo. A correlação é uma ferramenta. Um martelo, por si só, não é tão útil. Certamente não vai construir uma casa por si só. Mas você já tentou construir uma casa sem um martelo?

5
No seu primeiro marcador, você diz que a correlação é uma condição necessária para a causação - isso não é verdade. Se houver uma relação não monotônica entre duas variáveis, elas poderão ser não correlacionadas - isso não impede a causalidade.
Macro

@Macro - true e editado
Fomite

@ Macro True, mas na prática você pode aplicar uma função à sua variável para tornar monotônica a relação a ser testada. Se você não sabe esta função, então ... você não sabe muito sobre o que você está procurando
RockScience

@EpiGrad: Suponha que o gráfico de correlação XY de duas variáveis ​​pareça um sorriso feliz (ou qualquer outra forma em si). O coeficiente de correlação seria realmente muito pequeno, mas certamente haveria alguma inter-relação, certo? Como / o que se deve fazer nesse caso?
PhD

@ Nupul Uma exploração um pouco mais complicada do XY além da linearidade.
Fomite

7

Olhe para isso de uma perspectiva de jogo. Digamos que sabemos que, em média, as pessoas que usam botas de trabalho terão 1,5 feridos no trabalho, e as pessoas que usam mocassins terão 0,05 feridos em média. Ou talvez as chances de uma lesão em uma pessoa usando botas de trabalho sejam 0,85, e as chances de uma lesão em uma pessoa usando mocassins seja 0,1.

Se eu selecionar aleatoriamente uma pessoa da população e lhe disser que ela está usando botas de trabalho e lhe oferecer uma aposta equilibrada em relação a uma lesão no local de trabalho no ano passado, você aceitaria a aposta? Bem, você faria a aposta se pudesse apostar no lado em que eles sofreram uma lesão .. 85% do tempo você ganhará e estará ganhando dinheiro.

O fato é que, sabendo que essas informações nos fornecem informações sobre a probabilidade de sofrer uma lesão no trabalho. Os sapatos não têm nada a ver com isso; de fato, as botas de trabalho evitam lesões. Mas a variável confusa aqui é o tipo de trabalho que acompanha as botas de trabalho. E talvez outras coisas como a pessoa sejam possivelmente mais imprudentes.


6

A frase "correlação não implica causalidade" é exagerada. (Como escreveu Cohen, "é uma dica muito grande".) Colocamos essa frase nos estudantes por causa de um viés intrínseco à mente humana. Quando você ouve "a taxa de criminalidade está correlacionada com a taxa de pobreza", ou algo assim, não pode deixar de pensar que isso significa que a pobreza causa o crime. É natural que as pessoas assumam isso, porque é assim que a mente funciona. Usamos a frase repetidamente na esperança de neutralizar isso. No entanto, uma vez que você absorveu a idéia, a frase perde a maior parte de seu valor e é hora de avançar para um entendimento mais sofisticado.

Quando há uma correlação entre duas variáveis, há duas possibilidades: é tudo uma coincidência ou há algum padrão causal em ação. Chamar um padrão no mundo de coincidência é uma estrutura explicativa terrível e provavelmente deve ser seu último recurso. Isso deixa causalidade. O problema é que não sabemos a natureza desse padrão causal. Pode ser que a pobreza cause crime, mas também o crime causa pobreza (por exemplo, as pessoas não querem viver em uma área com alto índice de criminalidade, então elas se mudam e os valores da propriedade caem, etc.). Também poderia ser que haja uma terceira variável ou conjunto de variáveis que causam tanto crime e pobreza, mas que há, de fato, não diretonexo de causalidade entre crime e pobreza (conhecido como modelo de 'causa comum'). Isso é especialmente pernicioso, porque, em um modelo estatístico, todas as outras fontes de variação são recolhidas no termo de erro da variável dependente. Como resultado, a variável independente é correlacionada com (causada pelo) termo de erro, levando ao problema de endogeneidade . Esses problemas são muito difíceis e não devem ser tomados de ânimo leve. No entanto, mesmo nesse cenário, é importante reconhecer que existe uma causalidade real no trabalho.

Em resumo, quando você vê uma correlação, deve pensar que provavelmente existe algum tipo de causalidade em jogo em algum lugar , mas que você não conhece a natureza desse padrão causal.


4

Eu pensei que tinha conhecimento dessas coisas, mas foi apenas no mês passado que procurei "implicar" no dicionário e descobri que ele tinha dois significados surpreendentemente diferentes. 1. Sugerir e 2. Necessário. (!) A correlação raramente requer causalidade, mas certamente pode sugeri-la. Como o @EpiGrad salienta, é uma condição necessária, embora não suficiente, para estabelecer a causalidade.

Com o passar do tempo, esperamos encontrar um meio termo entre ver a correlação como o fim de tudo e como completamente inútil. E leva-se em consideração o conhecimento específico do assunto / domínio / conteúdo na interpretação dos resultados correlacionais. Poucas pessoas questionariam a existência de pelo menos algum link causal ao ver os resultados de vendas de publicidade que você descreve. Mas é sempre bom permanecer aberto a outras possibilidades, outras variáveis ​​que poderiam ao menos explicar parcialmente o relacionamento observado. Leituras sobre variáveis ​​confusas, validade e similares são recompensadas com grandes dividendos. Por exemplo, o Quasi-Experimentation clássico de Cook e Campbell tem uma boa seção sobre validade e ameaças à validade.


1
Como apontei para @EpiGrad, a correlação não é uma condição necessária para a causalidade. Existe uma concepção generalizada na análise dos dados de que um relacionamento entre variáveis ​​sempre se refere a um relacionamento monotônico, que é tacitamente assumido sugerindo que a correlação é uma condição necessária para a causalidade.
Macro

1
Justo. Digamos que "associação estatística" seja necessária, então.
Rolando2

2

Um coeficiente de correlação, como outras medidas de associação, é útil se você deseja saber o quanto o valor de X é informativo sobre o valor de Y. Isso é diferente de saber se você deve definir X para um valor específico, o que valor de Y que você obteria (que é a essência de uma interpretação contrafactual da causa).

No entanto, em muitos contextos (por exemplo, previsão), inferências baseadas em correlação seriam valiosas por si mesmas. Dentes amarelos estão correlacionados com câncer de pulmão (pois ambos são causados ​​probabilisticamente por câncer). Não há causa entre os dois: clarear os dentes não curaria o câncer de pulmão. Mas se você precisar de um teste rápido para quem tem câncer de pulmão, procurar dentes amarelos pode ser um bom primeiro passo.

É uma pergunta diferente se o coeficiente de correlação é a melhor medida de associação disponível, mas acho que a questão é mais sobre qual é o valor de conhecer a associação não causal.

Btw, não apenas a correlação não é demonstração suficiente de causalidade, mas também não é necessária. Duas variáveis ​​podem ser causalmente relacionadas, mas não apresentam correlação em nenhum conjunto de dados específico (por exemplo, devido a viés de seleção ou fatores de confusão).


1

a correlação por si só não é muito útil - então, qual é o uso?

Deixe-me discordar desta frase, a correlação permite conhecer o nível de associação entre duas variáveis. Então, é útil ao tentar explicar a relação entre essas variáveis. Por outro lado, (como escreveu Macro), a correlação não é uma condição necessária para a causalidade, no entanto, é suficiente para explicar o nível de associação. Além disso, você pode testar a independência das variáveis, mas a correlação pode fornecer outras informações úteis, o coeficiente de determinação.

No entanto, o analista deve conhecer o domínio para poder explicar o tipo de relação.


Eu não tenho certeza do que você quer dizer com isso:Furthermore, you can test the independence of the variables, but correlation can give you another useful information, the coefficient of determination
PhD

O que eu quis dizer foi: "você pode testar a independência das variáveis", mas de qualquer maneira, mesmo quando não estiver testando a independência, as informações de correlação e o coeficiente de correlação. de determinação são "úteis" para entender e explicar o tipo de relação entre as variáveis.
José Zubcoff

1

Eu acho que a coleta de dados e o desenho do estudo também podem ter um papel na resposta a essa pergunta. Você não projetará um estudo e coletará um conjunto de dados completamente irrelevantes entre si, mesmo nos estudos observacionais. Portanto, "a correlação não implica causalidade" pode ser justificada. Mesmo que não seja um relacionamento causal, pode haver uma associação relacionada.

No entanto, se você está falando de dois conjuntos de dados completamente irrelevantes, mas ainda deseja usar a correlação para explicar a associação e a causa, isso pode ser inapropriado. Por exemplo, se todos os dois conjuntos de dados apresentarem tendências de queda, como vendas de sorvetes e número de casamentos, o coeficiente de correlação pode ser muito alto. Mas é necessário significar uma associação?

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.