Resposta curta: muito não robusta. A correlação é uma medida de dependência linear e, quando uma variável não pode ser escrita como uma função linear da outra (e ainda possui a distribuição marginal fornecida), você não pode ter uma correlação perfeita (positiva ou negativa). De fato, os possíveis valores das correlações podem ser severamente restringidos.
O problema é que, embora a correlação da população esteja sempre entre e , o intervalo exato atingível depende muito das distribuições marginais. Uma prova e demonstração rápidas:1- 11
Alcance atingível da correlação
Se tem a função de distribuição e as funções de distribuição marginal e , existem alguns limites superiores e inferiores bastante bons para ,
chamados limites de Fréchet. Estes são
(tente provar; não é muito difícil.)H F G H H - ( x , y ) ≤ H ( x , y ) ≤ H + ( x , y ) , H - ( x , y )( X, Y)HFGH
H-( x , y) ≤ H( x , y) ≤ H+( x , y) ,
H-( x , y)H+( x , y)= max ( F( x ) + G ( y) - 1 , 0 )= min ( F( x ) , G ( y) ) .
Os próprios limites são funções de distribuição. Deixe ter uma distribuição uniforme. O limite superior é a função de distribuição de e o limite inferior é a função de distribuição de .( X , Y ) = ( F - ( U ) , G - ( U ) ) ( F - ( - U ) , G - ( 1 - U ) )você( X, Y) = ( F-( U) , G-( U) ))( F-( - U) , G-( 1 - U) ))
Agora, usando esta variante na fórmula da covariância,
vemos que obtemos a correlação máxima e mínima quando é igual a e , respectivamente, ou seja, quando é a (positivo ou negativo, respectivamente ) A função monótona de .H H + H - Y X
Cov( X, Y) = ∬H( x , y) - F( x ) G ( y) dx dy,
HH+H-YX
Exemplos
Aqui estão alguns exemplos (sem provas):
Quando e são normalmente distribuídos, obtém-se o máximo e mínimo quando tem a habitual distribuição normal bivariável onde é escrito como uma função linear de . Ou seja, obtemos o máximo para
Aqui, os limites são (claro) e , independentemente do que os meios e os desvios e têm.Y ( X , Y ) Y X Y = μ Y + σ Y X - μ XXY( X, Y)YX-11XY
Y= μY+ σYX- μXσX.
- 11XY
Quando e têm distribuições lognormal, o limite inferior nunca é atingível, pois isso implicaria que poderia ser escrito para alguns e positivos , e nunca pode ser negativo. Existem fórmulas (ligeiramente feias) para os limites exatos, mas deixe-me apenas dar um caso especial. Quando e têm distribuições lognormal padrão (o que significa que, quando exponenciadas, são normais padrão), o intervalo atingível é . (Em geral, o limite superior também é restrito.)Y Y Y = a - b X a b Y X Y [ - 1 / e , 1 ] ≈ [ - 0,37 , 1 ]XYYY= a - b XumabYXY[ - 1 / e , 1 ] ≈ [ - 0,37 , 1 ]
Quando tem uma distribuição normal padrão e tem uma distribuição normal normal, os limites de correlação são
Y ± 1XY
± 1e - 1----√≈ 0,76.
Observe que todos os limites são para a correlação da população . A correlação da amostra pode facilmente se estender para fora dos limites, especialmente para amostras pequenas (exemplo rápido: tamanho da amostra 2).
Estimando os limites de correlação
Na verdade, é muito fácil estimar os limites superior e inferior da correlação se você puder simular a partir das distribuições marginais. Para o último exemplo acima, podemos usar este código R:
> n = 10^5 # Sample size: 100,000 observations
> x = rnorm(n) # From the standard normal distribution
> y = rlnorm(n) # From the standard lognormal distribution
>
> # Estimated maximum correlation
> cor( sort(x), sort(y) )
0.772
>
> # Estimated minimum correlation
> cor( sort(x), sort(y, decreasing=TRUE) )
−0.769
Se tivermos apenas dados reais e não soubermos as distribuições marginais, ainda poderemos usar o método acima. Não é um problema que as variáveis sejam dependentes desde que os pares de observações sejam dependentes. Mas ajuda ter muitos pares de observação.
Transformando os dados
É claro que é possível transformar os dados para serem (marginalmente) normalmente distribuídos e, em seguida, calcular a correlação nos dados transformados. O problema é de interpretabilidade. (E por que usar a distribuição normal em vez de qualquer outra distribuição em que pode ser uma função linear de ?) Para dados que são normalmente distribuídos bivariados, a correlação tem uma boa interpretação (seu quadrado é a variação de uma variável explicada pela outra ) Este não é o caso aqui.XYX
O que você realmente está fazendo aqui é criar uma nova medida de dependência que não depende das distribuições marginais; ou seja, você está criando uma medida de dependência baseada em cópula . Já existem várias dessas medidas, sendo as mais conhecidas ρ de Spearman e τ de Kendall . (Se você está realmente interessado em conceitos de dependência, não é uma má idéia procurar cópulas.)
Em conclusão
Algumas considerações finais e conselhos: basta olhar para a correlação com um grande problema: faz você parar de pensar. Observar gráficos de dispersão, por outro lado, geralmente faz você começar a pensar. Meu conselho principal seria, portanto, examinar os gráficos de dispersão e tentar modelar explicitamente a dependência.
Dito isto, se você precisar de uma simples medida semelhante à correlação, eu usaria apenas o ρ de Spearman (e o intervalo de confiança e testes associados). Seu alcance não é restrito. Mas esteja ciente da dependência não monótona. O artigo da Wikipedia sobre correlação tem alguns bons gráficos ilustrando possíveis problemas.