Prove a equivalência das duas fórmulas a seguir para correlação de Spearman


14

Na wikipedia , a correlação de classificação de Spearman é calculada convertendo as variáveis e nas variáveis ​​classificadas e e calculando a correlação de Pearson entre as variáveis ​​classificadas:XiYixiyi

Calcular Spearman via wikipedia

No entanto, o artigo continua afirmando que, se não houver vínculos entre as variáveis e , a fórmula acima será equivalente aXiYi

segunda fórmula para calcular Spearman

onde , a diferença de classificação.di=yixi

Alguém pode dar uma prova disso, por favor? Não tenho acesso aos livros mencionados no artigo da Wikipedia.

Respostas:


14

ρ=i(xix¯)(yiy¯)i(xix¯)2i(yiy¯)2

Como não há vínculos, os 'e ' consistem nos números inteiros de a inclusive.y 1 nxy1n

Portanto, podemos reescrever o denominador:

i(xix¯)(yiy¯)i(xix¯)2

Mas o denominador é apenas uma função de :n

i(xix¯)2=ixi2nx¯2=n(n+1)(2n+1)6n((n+1)2)2=n(n+1)((2n+1)6(n+1)4)=n(n+1)((8n+46n6)24)=n(n+1)((n1)12)=n(n21)12

Agora vamos ver o numerador:

i(xix¯)(yiy¯)=ixi(yiy¯)ix¯(yiy¯)=ixiyiy¯ixix¯iyi+nx¯y¯=ixiyinx¯y¯=ixiyin(n+12)2=ixiyin(n+1)123(n+1)=n(n+1)12.(3(n+1))+ixiyi=n(n+1)12.[(n1)(4n+2)]+ixiyi=n(n+1)(n1)12n(n+1)(2n+1)/6+ixiyi=n(n+1)(n1)12ixi2+ixiyi=n(n+1)(n1)12i(xi2+yi2)/2+ixiyi=n(n+1)(n1)12i(xi22xiyi+yi2)/2=n(n+1)(n1)12i(xiyi)2/2=n(n21)12di2/2

Numerador denominador

=n(n+1)(n1)/12di2/2n(n21)/12=n(n21)/12di2/2n(n21)/12=16di2n(n21) ,.

Conseqüentemente

ρ=16di2n(n21).


5
Você pode eliminar os últimos 80% deste trabalho começando com a observação de que é invariável sob mudanças de local e escala, reduzindo assim o problema de expressar em termos de quando ; a fórmula obviamente é . Então, o único trabalho real a ser realizado é realizado pelo cálculo do denominador. ρxiyi(xiyi)2xi2=yi2=112di2=12(xiyi)2=1xiyi
whuber

@ Whuber +1, é um pouco melhor. Mas acho que vou deixá-lo da forma mais longa, menos arrumada, do tipo touro à porta.
Glen_b -Reinstala Monica

obrigado, ambas as respostas são boas, mas eu aceitei essa, pois é a que eu comecei a me tentar.
9784 Alex

Devo explicar minhas razões para seguir o caminho mais prosaico - as outras respostas são claras, esclarecedoras e inteligentes, mas exigem insights que dificilmente serão gerados por qualquer um, exceto os melhores alunos por conta própria. A vantagem de mostrar que é inteiramente passível de manipulação direta, se não inspirada, é que ela deve estar ao alcance de um aluno moderadamente capaz, se não inspirado. Às vezes, saber que você não precisa de truques perspicazes é útil (para quem não os vê).
Glen_b -Reinstala Monica

Acho que depende da sua visão do que constitui um "truque", "manipulação" e "insight". Baterias longas de cálculos algébricos envolvidos, como você diz, fornecem pouca ou nenhuma percepção (além de oferecer muitas oportunidades para erros) - e eu temo que os alunos possam vê-las como formidáveis ​​apenas por sua massa, além de desmotivadas. Outras operações, como uma padronização preliminar (que é tão útil aqui), podem inicialmente ser vistas como "truques", mas depois que alguns aplicativos devem se tornar vistos como ferramentas fundamentais e perspicazes.
whuber

10

Vemos que na segunda fórmula aparece a distância euclidiana ao quadrado entre as duas variáveis ​​(classificadas): . A intuição decisiva no início será como pode estar relacionado a . Está claramente relacionado através do teorema do cosseno . Se tivermos as duas variáveis ​​centralizadas, o cosseno na fórmula do teorema vinculado é igual a (pode ser facilmente comprovado, consideraremos aqui como garantido). E (a norma euclidiana ao quadrado) é , soma dos quadrados em uma variável centralizada. Portanto, a fórmula do teorema é assim:D2=Σdi2D2rrh2Nσ2Dxy2=Nσx2+Nσy22NσxNσyr. Observe também outra coisa importante (que pode ter que ser comprovada separadamente): Quando os dados são classificados , é o mesmo para dados centralizados e não centralizados.D2

Além disso, como as duas variáveis ​​foram classificadas, suas variações são as mesmas, , então .σx=σy=σD2=2Nσ22Nσ2r

r=1D22Nσ2 . Lembre-se de que os dados classificados são de uma distribuição uniforme discreta com variação . Substituí-lo na fórmula deixa .(N21)/12r=16D2N(N21)


8

A álgebra é mais simples do que pode parecer à primeira vista.

IMHO, há pouco lucro ou discernimento alcançado ao elaborar as manipulações algébricas. Em vez disso, uma identidade verdadeiramente simples mostra por que as diferenças ao quadrado podem ser usadas para expressar o coeficiente de correlação usual de Pearson. A aplicação disso no caso especial em que os dados são classificados produz o resultado. Apresenta o coeficiente até então misterioso

6n(n21)

como sendo metade do recíproco da variação das fileiras . (Quando existem empates, esse coeficiente adquire uma fórmula mais complicada, mas ainda será a metade da recíproca da variação das classificações atribuídas aos dados.)1,2,,n

Depois de ver e entender isso, a fórmula se torna memorável. Fórmulas comparáveis ​​(mas mais complexas) que lidam com laços, aparecem em testes estatísticos não paramétricos, como o teste da soma da classificação de Wilcoxon, ou aparecem em estatísticas espaciais (como I de Moran, C de Geary e outras) tornam-se instantaneamente compreensíveis.


Considere qualquer conjunto de dados emparelhados com médias e e variações e . Ao atualizar as variáveis ​​em suas médias e e usar seus desvios padrão e como unidades de medida, os dados serão em termos dos valores padronizados(Xi,Yi)X¯Y¯sX2sY2X¯Y¯sXsY

(xi,yi)=(XiX¯sX,YiY¯sY).

Por definição , o coeficiente de correlação de Pearson dos dados originais é o produto médio dos valores padronizados,

ρ=1ni=1nxiyi.

A identidade de polarização relaciona produtos a quadrados. Para dois números e , afirmaxy

xy=12(x2+y2(xy)2),

o que é facilmente verificado. A aplicação disso a cada termo na soma fornece

ρ=1ni=1n12(xi2+yi2(xiyi)2).

Como e foram padronizados, seus quadrados médios são ambos unidade, de ondexiyi

(1)ρ=12(1+11ni=1n(xiyi)2)=112(1ni=1n(xiyi)2).

O coeficiente de correlação difere do seu valor máximo possível, , pela metade da diferença quadrática média dos dados padronizados.1

Essa é uma fórmula universal para correlação, válida independentemente dos dados originais (desde que ambas as variáveis ​​tenham desvios padrão diferentes de zero). (Os leitores fiéis deste site reconhecerão isso como estando intimamente relacionado à caracterização geométrica da covariância descrita e ilustrada em Como você explicaria a covariância a alguém que entende apenas a média?. )


No caso especial em que e são classificações distintas , cada uma é uma permutação da mesma sequência de números . Assim, e, com um pouquinho de cálculo, encontramosXiYi1,2,,nX¯=Y¯=(n+1)/2

sX2=sY2=1ni=1n(i(n+1)/2)2=n2112

(que, felizmente, não é zero sempre que ). Portanton>1

(xiyi)2=((Xi(n+1)/2)(Yi(n+1)/2))2(n21)/12=12(XiYi)2n21.

Essa boa simplificação ocorreu porque e têm as mesmas médias e desvios padrão: a diferença de suas médias desapareceu e o produto tornou-se que não envolve raízes quadradas .XiYisXsYsX2

A inserção disso na fórmula para fornece(1)ρ

ρ=16n(n21)i=1n(XiYi)2.

2
(+1) A interpretação geométrica em termos de sua famosa resposta "retângulos para covariância" é muito clara, mas eu me pergunto se os leitores casuais a verão - talvez um diagrama de esboço possa ajudar (fiquei tentado a adicionar um!). Para os curiosos: a fórmula é o número 9 da lista de Treze maneiras de analisar o coeficiente de correlação , de Joseph Lee Rodgers e W. Alan Nicewander no The American Statistician, vol. 42, nº 1. (fevereiro de 1988), pp. 59-66. stat.berkeley.edu/~rabbee/correlation.pdfr=1sxy2/2
Silverfish

2
@ Silver Obrigado pelos comentários úteis. O artigo de Rodgers e Nicewander está resumido em nosso site em stats.stackexchange.com/a/104577 . Algum dia eu poderia desenhar o diagrama que você descreve ....
whuber

5

Os alunos do ensino médio podem ver as fórmulas de correlação PMCC e Spearman anos antes de terem as habilidades de álgebra para manipular a notação sigma, embora possam conhecer bem o método das diferenças finitas para deduzir a equação polinomial de uma sequência . Portanto, tentei escrever uma "prova do ensino médio" para a equivalência: encontrar o denominador usando diferenças finitas e minimizar a manipulação algébrica de somas no numerador. Dependendo dos alunos aos quais a prova é apresentada, você pode preferir essa abordagem ao numerador, mas combine-a com um método mais convencional para o denominador.

Denominador ,i(xix¯)2i(yiy¯)2

Sem vínculos, os dados estão nas fileiras em alguma ordem, portanto é fácil mostrar . Podemos reordenar a soma , embora em alunos de séries mais baixas eu provavelmente escrevesse essa soma explicitamente, e não em notação sigma. A soma de um quadrático em será cúbica em , fato que os estudantes familiarizados com o método das diferenças finitas podem compreender intuitivamente: diferenciar um cúbico produz um quadrático, portanto, somar um quadrático produz um cúbico. Determinar os coeficientes de cúbico é simples se os alunos estiverem confortáveis ​​em manipular{1,2,,n}x¯=n+12Sxx=i=1n(xix¯)2=k=1n(kn+12)2knf(n)Σnotação e conheça (e lembre-se!) as fórmulas para e . Mas eles também podem ser deduzidos usando diferenças finitas, como segue.k=1nkk=1nk2

Quando , o conjunto de dados é apenas , , então .n=1{1}x¯=1f(1)=(11)2=0

Para , os dados são , , então .n=2{1,2}x¯=1.5f(2)=(11.5)2+(21.5)2=0.5

Para , os dados são , , então .n=3{1,2,3}x¯=2f(3)=(12)2+(22)2+(32)2=2

Esses cálculos são bastante breves e ajudam a reforçar o que a notação significa e, em pouco tempo, produzimos a tabela de diferenças finitas.i=1n(xix¯)2

Tabela de diferenças finitas para Sxx

Podemos obter os coeficientes de acionando o método das diferenças finitas, conforme descrito nos links acima. Por exemplo, as constantes terceiras diferenças indicam que nosso polinômio é realmente cúbico, com o coeficiente à esquerda . Existem alguns truques para minimizar o trabalho árduo: um bem conhecido é usar as diferenças comuns para estender a sequência de volta para , pois saber que imediatamente liberta o coeficiente constante. Outra é tentar estender a sequência para ver se é zero para um número inteirof(n)0.53!=112n=0f(0)f(n)n- por exemplo, se a sequência tivesse sido positiva, mas decrescente, valeria a pena estender-se para a direita para ver se poderíamos "pegar uma raiz", pois isso facilita a fatoração mais tarde. No nosso caso, a função parece pairar em torno de valores baixos quando é pequeno, então vamos estender ainda mais para a esquerda.n

Tabela de diferenças finitas estendida para Sxx

Aha! Acontece que pegamos as três raízes: . Portanto, o polinômio possui fatores de , e . Por ser cúbico, deve ter a forma:f(1)=f(0)=f(1)=0(n+1)n(n1)

f(n)=an(n+1)(n1)

Podemos ver que deve ser o coeficiente de que já determinamos ser . Alternativamente, uma vez que , temos que leva à mesma conclusão. Expandir a diferença de dois quadrados dá:an3112f(2)=0.5a(2)(3)(1)=0.5

Sxx=n(n21)12

Como o mesmo argumento se aplica a , o denominador é e nós terminamos. Ignorando minha exposição, esse método é surpreendentemente curto. Se for possível notar que o polinômio é cúbico, é necessário apenas calcular para os casos para estabelecer a terceira diferença é 0,5. Raiz caçadores só precisa de estender o para a esquerda da sequência de e , por, quando todos os três raízes são encontradas. Levei alguns minutos para encontrar dessa maneira.SyySxxSyy=Sxx2=SxxSxxn{1,2,3,4}n=0n=1Sxx

Numerador, i(xix¯)(yiy¯)

Observo a identidade que pode ser reorganizada em:(ba)2b22ab+a2

ab12(a2+b2(ba)2)

Se deixarmos que e temos o resultado útil que porque os meios, sendo idênticos, se cancelam. Essa foi a minha intuição para escrever a identidade em primeiro lugar; Eu queria mudar de trabalhar com o produto dos momentos para o quadrado de suas diferenças. Agora temos:a=xix¯=xin+12b=yiy¯=yin+12ba=yixi=di

(xix¯)(yiy¯)=12((xix¯)2+(yiy¯)2di2)

Esperamos que mesmo os alunos que não sabem como manipular a notação possam ver como a soma do conjunto de dados gera:Σ

Sxy=12(Sxx+Syyi=1ndi2)

Já estabelecemos, reordenando as somas, que , deixando-nos com:Syy=Sxx

Sxy=Sxx12i=1ndi2

A fórmula para o coeficiente de correlação de Spearman está ao nosso alcance!

rS=SxySxxSyy=Sxx12idi2Sxx=1idi22Sxx

Substituindo o resultado anterior, concluirá o trabalho.Sxx=112n(n21)

rS=1idi2212n(n21)=16idi2n(n21)
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.