Quão robusto é o coeficiente de correlação de Pearson com violações da normalidade?

Os dados para certos tipos de variáveis tendem a não ser normais quando medidos em populações específicas (por exemplo, níveis de depressão em uma população de pessoas com Transtorno Depressivo Maior). Dado que Pearson assume normalidade, quão robusta é a estatística do teste em condições de não normalidade?

Eu tenho um número de variáveis para as quais eu gostaria de obter coeficientes de correlação, mas a assimetria Z para algumas dessas variáveis é significativa em p <0,001 (e isso é para uma amostra relativamente pequena). Eu tentei algumas transformações, mas as melhorias nas distribuições são apenas marginais, na melhor das hipóteses.

Vou ter que ficar com análises não paramétricas? E não apenas para correlações, mas também para outros tipos de análise?

correlation

— Archaeopteryx
fonte

Espere, o coeficiente de correlação de Pearson assume normalidade? Acho que não, e tenho usado em dados não normais. Simplesmente não é robusto para algumas coisas que acontecem com mais frequência em situações não-normais, mas há muitas situações não-normais em que não vejo problema em usar o coeficiente de correlação de Pearson.

— Douglas Zare

Que a correlação de Pearson assume normalidade é o que muitos textos estatísticos afirmam. Ouvi em outro lugar que normalidade é uma suposição desnecessária para o r de Pearson. Quando executo as análises, tanto as de Pearson quanto as de Spearman produzem resultados relativamente semelhantes.

— Archaeopteryx

O coeficiente de correlação de Spearman é o coeficiente de correlação de Pearson aplicado aos rankings não normais. Ainda não sei em que sentido você acredita que a Pearson exige normalidade. Talvez você possa dizer algumas coisas extras, caso esteja usando-o em uma distribuição normal multivariada.

— Douglas Zare

Estou apenas usando-o para correlações bivariadas simples. Não sei por que se afirma que a normalidade é necessária. Os textos estatísticos que eu sempre li listam a normalidade como uma suposição da correlação de Pearson e recomendam o uso de Spearman para condições nas quais a não-normalidade é válida.

— Archaeopteryx

Respostas:

Resposta curta: muito não robusta. A correlação é uma medida de dependência linear e, quando uma variável não pode ser escrita como uma função linear da outra (e ainda possui a distribuição marginal fornecida), você não pode ter uma correlação perfeita (positiva ou negativa). De fato, os possíveis valores das correlações podem ser severamente restringidos.

O problema é que, embora a correlação da população esteja sempre entre e , o intervalo exato atingível depende muito das distribuições marginais. Uma prova e demonstração rápidas: $-1$ $1$

Alcance atingível da correlação

Se tem a função de distribuição e as funções de distribuição marginal e , existem alguns limites superiores e inferiores bastante bons para , chamados limites de Fréchet. Estes são (tente provar; não é muito difícil.) $(X,Y)$ $H$ $F$ $G$ $H$

H_{-} (x, y) \leq H (x, y) \leq H_{+} (x, y),

$H_-(x,y) \leq H(x,y) \leq H_+(x,y),$

\begin{aligned} H_{-} (x, y) & = max (F (x) + G (y) - 1, 0) \\ H_{+} (x, y) & = min (F (x), G (y)) . \end{aligned}

$\begin{aligned} H_-(x,y) &= \max(F(x) + G(y)-1, 0)\\ H_+(x,y) &= \min(F(x), G(y)). \end{aligned}$

Os próprios limites são funções de distribuição. Deixe ter uma distribuição uniforme. O limite superior é a função de distribuição de e o limite inferior é a função de distribuição de . $U$ $(X,Y)=(F^-(U), G^-(U))$ $(F^-(-U), G^-(1-U))$

Agora, usando esta variante na fórmula da covariância, vemos que obtemos a correlação máxima e mínima quando é igual a e , respectivamente, ou seja, quando é a (positivo ou negativo, respectivamente ) A função monótona de .

Cov (X, Y) = \iint H (x, y) - F (x) G (y) d x d y,

$\mathop{\textrm{Cov}}(X,Y)=\iint H(x,y)-F(x)G(y) \mathop{\mathrm d\!}x \mathop{\mathrm d\!}y,$

H

$H$

H_{+}

$H_+$

H_{-}

$H_-$

Y

$Y$

X

$X$

Exemplos

Aqui estão alguns exemplos (sem provas):

Quando e são normalmente distribuídos, obtém-se o máximo e mínimo quando tem a habitual distribuição normal bivariável onde é escrito como uma função linear de . Ou seja, obtemos o máximo para Aqui, os limites são (claro) e , independentemente do que os meios e os desvios e têm. $X$ $Y$ $(X,Y)$ $Y$ $X$
$Y = μ_{Y} + σ_{Y} \frac{X - μ_{X}}{σ_{X}} .$ $Y=\mu_Y+\sigma_Y \frac{X-\mu_X}{\sigma_X}.$ $-1$ $1$ $X$ $Y$
Quando e têm distribuições lognormal, o limite inferior nunca é atingível, pois isso implicaria que poderia ser escrito para alguns e positivos , e nunca pode ser negativo. Existem fórmulas (ligeiramente feias) para os limites exatos, mas deixe-me apenas dar um caso especial. Quando e têm distribuições lognormal padrão (o que significa que, quando exponenciadas, são normais padrão), o intervalo atingível é . (Em geral, o limite superior também é restrito.) $X$ $Y$ $Y$ $Y=a-bX$ $a$ $b$ $Y$ $X$ $Y$ $[-1/e, 1]\approx [-0.37, 1]$
Quando tem uma distribuição normal padrão e tem uma distribuição normal normal, os limites de correlação são $X$ $Y$
$\pm \frac{1}{\sqrt{e - 1}} \approx 0,76.$ $\pm \frac{1}{\sqrt{e-1}} \approx 0.76.$

Observe que todos os limites são para a correlação da população . A correlação da amostra pode facilmente se estender para fora dos limites, especialmente para amostras pequenas (exemplo rápido: tamanho da amostra 2).

Estimando os limites de correlação

Na verdade, é muito fácil estimar os limites superior e inferior da correlação se você puder simular a partir das distribuições marginais. Para o último exemplo acima, podemos usar este código R:

> n = 10^5      # Sample size: 100,000 observations
> x = rnorm(n)  # From the standard normal distribution
> y = rlnorm(n) # From the standard lognormal distribution
>
> # Estimated maximum correlation
> cor( sort(x), sort(y) )
0.772
>
> # Estimated minimum correlation
> cor( sort(x), sort(y, decreasing=TRUE) )
−0.769

Se tivermos apenas dados reais e não soubermos as distribuições marginais, ainda poderemos usar o método acima. Não é um problema que as variáveis sejam dependentes desde que os pares de observações sejam dependentes. Mas ajuda ter muitos pares de observação.

Transformando os dados

É claro que é possível transformar os dados para serem (marginalmente) normalmente distribuídos e, em seguida, calcular a correlação nos dados transformados. O problema é de interpretabilidade. (E por que usar a distribuição normal em vez de qualquer outra distribuição em que pode ser uma função linear de ?) Para dados que são normalmente distribuídos bivariados, a correlação tem uma boa interpretação (seu quadrado é a variação de uma variável explicada pela outra ) Este não é o caso aqui. $Y$ $X$

O que você realmente está fazendo aqui é criar uma nova medida de dependência que não depende das distribuições marginais; ou seja, você está criando uma medida de dependência baseada em cópula . Já existem várias dessas medidas, sendo as mais conhecidas ρ de Spearman  e τ de Kendall  . (Se você está realmente interessado em conceitos de dependência, não é uma má idéia procurar cópulas.)

Em conclusão

Algumas considerações finais e conselhos: basta olhar para a correlação com um grande problema: faz você parar de pensar. Observar gráficos de dispersão, por outro lado, geralmente faz você começar a pensar. Meu conselho principal seria, portanto, examinar os gráficos de dispersão e tentar modelar explicitamente a dependência.

Dito isto, se você precisar de uma simples medida semelhante à correlação, eu usaria apenas o ρ de Spearman  (e o intervalo de confiança e testes associados). Seu alcance não é restrito. Mas esteja ciente da dependência não monótona. O artigo da Wikipedia sobre correlação tem alguns bons gráficos ilustrando possíveis problemas.

— Karl Ove Hufthammer
fonte

+1 Esta ótima contribuição aborda claramente vários problemas recorrentes associados a correlações. Agradeço especialmente as observações no primeiro parágrafo final sobre parar / começar a pensar.

— whuber

A não robustez permaneceria até assintoticamente? Nesse caso, o wiki está incorreto ao dizer que "[A distribuição t do aluno para uma simples transformação de r] também é válida, mesmo que os valores observados não sejam normais, desde que o tamanho da amostra não seja muito pequeno"?

— max

Como são as distribuições dessas variáveis (além de distorcidas)? Se a única não normalidade é a assimetria, uma transformação de algum tipo deve ajudar. Porém, se essas variáveis tiverem muita aglomeração, nenhuma transformação as levará à normalidade. Se a variável não for contínua, o mesmo será verdadeiro.

Qual a robustez da correlação com violações? Dê uma olhada no quarteto Anscombe. Ilustra vários problemas muito bem.

Quanto a outros tipos de análise, isso depende da análise. Se as variáveis assimétricas são variáveis independentes em uma regressão, por exemplo, pode não haver um problema - você precisa observar os resíduos.

— Peter Flom - Restabelece Monica
fonte

Algumas das variáveis também têm problemas com a curtose, mas a assimetria é o maior problema. Eu tentei transformações de raiz quadrada e log nas variáveis do problema, mas elas não melhoram muito. De fato, as distribuições parecem quase exatamente iguais, mas com maior acúmulo de pontuações.

— Archaeopteryx

Isso parece muito estranho. Você pode postar a média, mediana, assimetria, curtose da variável em questão? Ou (melhor ainda) um gráfico de densidade disso?

— Peter Flom - Restabelece Monica

Independentemente de a distribuição de (X, Y) ser bivariada normal ou não, a correlação de Pearson é uma medida do grau de linearidade. A distribuição de probabilidade para a estimativa da amostra dependerá da normalidade.

— Michael R. Chernick 29/09/12

Essas variáveis não são muito assimétricas. Você pode deixá-los como estão.

— Peter Flom - Restabelece Monica

Não se preocupe com o significado aqui. Normalmente, a inclinação e a curtose <-2 ou> 2 são consideradas como talvez necessitando de transformação. Melhor ainda é olhar para gráficos, por exemplo, plotagem normal quantil e plotagem de densidade com kernel para ver o que está acontecendo.

— Peter Flom - Restabelece Monica