Por que independência implica correlação zero?

16

Primeiro de tudo, não estou perguntando isso:

Por que a correlação zero não implica independência?

Isso é abordado (de maneira bastante agradável) aqui: /math/444408/why-does-zero-correlation-not-imply-independence

O que estou perguntando é o oposto ... digamos que duas variáveis sejam totalmente independentes uma da outra.

Eles não poderiam ter uma pequena correlação por acidente?

Não deveria ser ... independência implica correlação MUITO PEQUENA?

— Joshua Ronis
fonte

5

Mesmo variáveis independentes quase sempre terão uma correlação SAMPLE diferente de zero, embora provavelmente ainda esteja perto de zero.

— jsk

10

Como @jsk apontou, você pode estar confundindo correlação amostra com correlação esperada

— David

1

@ David você poderia explicar? Eu ainda sou muito iniciante em estatística.

— Joshua Ronis

3

@JoshuaRonis A correlação de amostra é a correlação observada ao trabalhar com um monte de dados. Você usa isso para ter uma idéia de qual é a correlação "verdadeira" entre duas variáveis. Quanto maior a amostra, melhor a estimativa que você obtém. Por exemplo, a correlação entre os resultados de dois dados é independente e, portanto, não correlacionada, mesmo que você os junte dez vezes, você poderá obter correlação (devido à chance aleatória). (ou seja, você tem a mesma chance de cada um) #

— David

1

Não é uma discussão idiota, mas relacionada: a correlação diferente de zero implica dependência?

— SecretAgentMan

36

Pela definição do coeficiente de correlação, se duas variáveis são independentes, sua correlação é zero. Portanto, não poderia ter nenhuma correlação por acidente!

ρ_{X, Y} = \frac{E [X Y] - E [X] E [Y]}{\sqrt{E [X^{2}] - [E [X]]^{2}} \sqrt{E [Y^{2}] - [E [Y]]^{2}}}

$\rho_{X,Y}=\frac{\operatorname{E}[XY]-\operatorname{E}[X]\operatorname{E}[Y]}{\sqrt{\operatorname{E}[X^2]-[\operatorname{E}[X]]^2}~\sqrt{\operatorname{E}[Y^2]- [\operatorname{E}[Y]]^2}}$

Se $X$ e $Y$ são independentes, significa $\operatorname{E}[XY]= \operatorname{E}[X]\operatorname{E}[Y]$ . Portanto, o numerador de $\rho_{X,Y}$ é zero neste caso.

Portanto, se você não alterar o significado da correlação, como mencionado aqui, não será possível. A menos que, esclareça sua definição de qual é a correlação.

— AMD
fonte

2

E, no entanto, temos gráficos mostrando claramente uma correlação (inversa) entre o número de piratas e a temperatura média global. Como outros comentários indicam, é preciso ter cuidado com os tamanhos de amostra, para não mencionar as aparências acidentais "

— Carl Witthoft

@OmG "se você não alterar o significado da correlação, como mencionado aqui" Quando li a pergunta do OP, obtive um significado muito diferente de "correlação". Para mim: "Eles não poderiam ter uma pequena correlação por acidente?" implica muito fortemente 'medir" correlação, e quando você mede correlação na realidade, você vai muitas vezes encontrar 'um pouquinho de correlação por acidente'.

— indústria7

1

@ industry7 eu vejo. Mas deve ser definido em um método formal. É qualitativo e não podemos falar sobre isso aqui.

— OmG 20/06/19

@CarlWitthoft O número de piratas e a temperatura média global não são independentes. Eles têm uma causa comum (isto é, tempo, desenvolvimento, modernização etc.) que cria uma dependência entre eles. "Independência" não significa "não causa"; significa "não associado", e claramente esses gráficos demonstram associação.

— Noah

@ Noah, temo que um WHOOSH tenha acontecido. venganza.org

— Carl Witthoft

19

$r = 0.$ $\rho.]$

$n = 5$ $1.$

set.seed(616)
r = replicate( 10^6, cor(rexp(5), rexp(5))  )
mean(abs(r) > .5)
[1] 0.386212
mean(r)
[1] -0.0005904455

hist(r, prob=T, br=40, col="skyblue2")
  abline(v=c(-.5,.5), col="red", lwd=2)

$5,$ $r = -0.5716.$

Não há nada de especial na distribuição exponencial a esse respeito. Alterar a distribuição dos pais para o padrão normal deu os seguintes resultados.

set.seed(2019)
...
mean(abs(r) > .5)
[1] 0.391061
mean(r)
[1] 1.43269e-05

$n = 20.$

$r$

— BruceET
fonte

6

Para um tamanho de amostra pequeno, é provável que você encontre correlações "visivelmente" diferentes de zero, mas não é mais provável que encontre correlações significativamente diferentes de zero. Embora sua estimativa pontual esteja longe de zero, você tem poucos dados para afirmar com confiança que está vendo uma correlação diferente de zero devido a qualquer coisa, exceto ao acaso. Com apenas 5 pares, mesmo correlações coeficientes superiores a 0,8 podem não ser significativamente diferente de 0.

— Wang Nuclear

11

Resposta simples: se duas variáveis são independentes, a correlação da população é zero, enquanto a correlação da amostra será tipicamente pequena, mas diferente de zero.

Isso ocorre porque a amostra não é uma representação perfeita da população.

Quanto maior a amostra, melhor ela representa a população, menor a correlação que você terá. Para uma amostra infinita , a correlação seria zero.

— Dave
fonte

1

p

$p$

ϵ

$\epsilon$

n

$n$

n

$n$

ϵ

$\epsilon$

p

$p$

Sim, absolutamente correto! Tentei manter minha resposta o mais simples e conceitual possível.

— Dave

1

Talvez isso seja útil para algumas pessoas que compartilham o mesmo entendimento intuitivo. Todos nós vimos algo assim:

$r = 0.66$

Como outros já apontaram, os valores da amostra estão correlacionados, mas isso não significa que a população tenha uma correlação diferente de zero.

É claro que esses dois deveriam ser independentes - dado que Nicolas Cage apareceu em um recorde de 10 filmes este ano, não devemos fechar a piscina local para o verão por questões de segurança.

Mas quando verificamos quantas pessoas se afogam este ano, há uma pequena chance de que um número recorde de 1000 pessoas se afogue este ano.

Obter essa correlação é improvável. Talvez um em mil. Mas é possível, mesmo que os dois sejam independentes. Mas este é apenas um caso. Considere que existem milhões de eventos possíveis para medir por aí, e você pode ver a chance de que as chances de dois acontecerem para dar uma alta correlação sejam bastante altas (daí a existência de gráficos como o acima).

Outra maneira de analisar é que garantir que dois eventos independentes sempre gerem valores não correlacionados é restritivo. Dados dois dados independentes e os resultados do primeiro, há um certo conjunto (considerável) de resultados para o segundo dado que fornecerá alguma correlação diferente de zero. Restringir os resultados do segundo dado para dar uma correlação zero com o primeiro é uma clara violação da independência, pois as jogadas do primeiro dado estão afetando a distribuição dos resultados.

— Simon Alford
fonte