O coeficiente de Pearson entre duas variáveis é bastante alto (r = 0,65). Mas quando eu classifico os valores das variáveis e corro a correlação de Spearman, o valor de cofficient é muito menor (r = 0,30).
- Qual é a interpretação disso?
O coeficiente de Pearson entre duas variáveis é bastante alto (r = 0,65). Mas quando eu classifico os valores das variáveis e corro a correlação de Spearman, o valor de cofficient é muito menor (r = 0,30).
Respostas:
Se seus dados são normalmente distribuídos ou uniformemente distribuídos, eu acho que a correlação de Spearman e Pearson deve ser bastante semelhante.
Se eles estão apresentando resultados muito diferentes, como no seu caso (0,65 versus 0,30), meu palpite é que você distorceu os dados ou discrepantes, e que discrepantes estão levando a correlação de Pearson a ser maior que a correlação de Spearman. Ou seja, valores muito altos em X podem co-ocorrer com valores muito altos em Y.
Veja também estas perguntas anteriores sobre as diferenças entre a correlação de Spearman e Pearson:
A seguir, é apresentada uma simulação simples de como isso pode ocorrer. Observe que o caso abaixo envolve um único outlier, mas você pode produzir efeitos semelhantes com vários outliers ou dados distorcidos.
# Set Seed of random number generator
set.seed(4444)
# Generate random data
# First, create some normally distributed correlated data
x1 <- rnorm(200)
y1 <- rnorm(200) + .6 * x1
# Second, add a major outlier
x2 <- c(x1, 14)
y2 <- c(y1, 14)
# Plot both data sets
par(mfrow=c(2,2))
plot(x1, y1, main="Raw no outlier")
plot(x2, y2, main="Raw with outlier")
plot(rank(x1), rank(y1), main="Rank no outlier")
plot(rank(x2), rank(y2), main="Rank with outlier")
# Calculate correlations on both datasets
round(cor(x1, y1, method="pearson"), 2)
round(cor(x1, y1, method="spearman"), 2)
round(cor(x2, y2, method="pearson"), 2)
round(cor(x2, y2, method="spearman"), 2)
O que dá essa saída
[1] 0.44
[1] 0.44
[1] 0.7
[1] 0.44
A análise de correlação mostra que, sem Spearman e Pearson discrepantes, são bastante semelhantes e, com os discrepantes extremos, a correlação é bem diferente.
O gráfico abaixo mostra como tratar os dados como fileiras remove a extrema influência do discrepante, levando Spearman a ser semelhante tanto com quanto sem discrepante, enquanto Pearson é bem diferente quando o discus é adicionado. Isso destaca por que Spearman é frequentemente chamado de robusto.