Como sei quando escolher entre o Spearman e o de Pearson ? Minha variável inclui satisfação e as pontuações foram interpretadas usando a soma das pontuações. No entanto, essas pontuações também podem ser classificadas.
Como sei quando escolher entre o Spearman e o de Pearson ? Minha variável inclui satisfação e as pontuações foram interpretadas usando a soma das pontuações. No entanto, essas pontuações também podem ser classificadas.
Respostas:
Se você deseja explorar seus dados, é melhor calcular ambos, pois a relação entre as correlações de Spearman (S) e Pearson (P) fornecerá algumas informações. Resumidamente, S é computado em fileiras e, portanto, descreve relações monotônicas, enquanto P está em valores verdadeiros e representa relações lineares.
Como exemplo, se você definir:
x=(1:100);
y=exp(x); % then,
corr(x,y,'type','Spearman'); % will equal 1, and
corr(x,y,'type','Pearson'); % will be about equal to 0.25
Isso ocorre porque aumenta monotonicamente com portanto a correlação de Spearman é perfeita, mas não linearmente, portanto a correlação de Pearson é imperfeita.
corr(x,log(y),'type','Pearson'); % will equal 1
Fazer as duas coisas é interessante porque se você tem S> P, isso significa que você tem uma correlação que é monotônica, mas não linear. Como é bom ter linearidade nas estatísticas (é mais fácil), você pode tentar aplicar uma transformação em (como um log).
Espero que isso ajude a facilitar a compreensão das diferenças entre os tipos de correlações.
A resposta mais curta e correta é:
Relação linear de benchmarks de Pearson , relação monotônica de benchmarks de Spearman (poucos infinitos em casos mais gerais, mas com alguma troca de poder).
Isso acontece frequentemente nas estatísticas: há uma variedade de métodos que podem ser aplicados em sua situação e você não sabe qual escolher. Você deve basear sua decisão nos prós e contras dos métodos em consideração e nas especificidades do seu problema, mas mesmo assim a decisão é geralmente subjetiva, sem resposta "correta" acordada. Geralmente, é uma boa idéia experimentar os métodos que parecerem razoáveis e que sua paciência permita e veja quais oferecem os melhores resultados no final.
A diferença entre a correlação de Pearson e a correlação de Spearman é que o Pearson é mais apropriado para medições tiradas de uma escala de intervalo , enquanto o Spearman é mais apropriado para medições tiradas de escalas ordinais . Exemplos de escalas de intervalo incluem "temperatura em Farenheit" e "comprimento em polegadas", nas quais as unidades individuais (1 deg F, 1 in) são significativas. Coisas como "índices de satisfação" tendem a ser do tipo ordinal, pois, embora esteja claro que "5 felicidade" é mais feliz que "3 felicidade", não está claro se você poderia dar uma interpretação significativa de "1 unidade de felicidade". Mas quando você soma Em muitas medidas do tipo ordinal, que é o que você tem no seu caso, você acaba com uma medida que na verdade não é ordinal nem intervalo e é difícil de interpretar.
Eu recomendaria que você converta suas pontuações de satisfação em pontuações quantílicas e depois trabalhe com as somas dessas, pois isso fornecerá dados um pouco mais acessíveis à interpretação. Mas, mesmo neste caso, não está claro se Pearson ou Spearman seriam mais apropriados.
Encontrei um caso de canto interessante hoje.
Se observarmos um número muito pequeno de amostras, a diferença entre Spearman e Pearson pode ser dramática.
No caso abaixo, os dois métodos relatam uma correlação exatamente oposta .
Algumas regras rápidas para decidir Spearman vs. Pearson:
ps Aqui está o código R para reproduzir o gráfico acima:
# Script that shows that in some corner cases, the reported correlation for spearman can be
# exactly opposite to that for pearson. In this case, spearman is +0.4 and pearson is -0.4.
y = c(+2.5,-0.5, -0.8, -1)
x = c(+0.2,-3, -2.5,+0.6)
plot(y ~ x,xlim=c(-6,+6),ylim=c(-1,+2.5))
title("Correlation: corner case for Spearman vs. Pearson\nNote that they are exactly opposite each other (-0.4 vs. +0.4)")
abline(v=0)
abline(h=0)
lm1=lm(y ~ x)
abline(lm1,col="red")
spearman = cor(y,x,method="spearman")
pearson = cor(y,x,method="pearson")
legend("topleft",
c("Red line: regression.",
sprintf("Spearman: %.5f",spearman),
sprintf("Pearson: +%.5f",pearson)
))
Ao concordar com a resposta de Charles, eu sugeriria (em um nível estritamente prático) que você calcule ambos os coeficientes e analise as diferenças. Em muitos casos, eles serão exatamente iguais, portanto você não precisa se preocupar.
Se, no entanto, forem diferentes, será necessário verificar se você atendeu ou não às suposições de Pearsons (variação e linearidade constantes) e, se não forem atendidas, provavelmente será melhor usar Spearmans.