Ele é realmente algo. Para descobrir, precisamos examinar o que sabemos sobre a própria correlação.
A matriz de correlação de uma variável aleatória vector é a variância-covariância matriz, ou simplesmente "variância," da versão padronizada de X . Ou seja, cada X i é substituído por sua versão recente e redimensionada.X=(X1,X2,…,Xp)XXi
A covariância de e X j é a expectativa do produto de suas versões centralizadas. Ou seja, escrevendo X ′ i = X i - E [ X i ] e X ′ j = X j - E [ X j ] , temosXiXjX′i=Xi−E[Xi]X′j=Xj−E[Xj]
Cov( XEu, Xj) = E[ X′EuX′j] .
A variação de , que escreverei Var ( X ) , não é um número único. É a matriz de valores Var ( X ) i j = Cov ( X i , X j ) .XVar( X )
Var( X )eu j= Cov( XEu, Xj) .
A maneira de pensar na covariância para a generalização pretendida é considerá-la um tensor . Isso significa que é uma colecção completa de quantidades , indexado por i e j vão desde 1 através de P , cujos valores de mudar de uma forma previsível particularmente simples quando X sofre uma transformação linear. Especificamente, seja Y = ( Y 1 , Y 2 , … , Y q ) outra variável aleatória com valor vetorial definida porveu jEuj1pXY =( Y1, Y2, ... , Yq)
YEu= ∑j = 1pumajEuXj.
As constantes (iejsãoíndices-jnão é uma potência) formam umamatrizq×pA=(aumajEuEujjq× p,j=1,…,pei=1,…,q. A linearidade da expectativa implicaA =( ajEu)j = 1 , … , pi = 1 , ... , q
Var( Y )eu j= ∑ akEuumaeujVar( X )k l.
Na notação matricial,
Var( Y ) = A Var( X ) A′.
Todos os componentes de são na verdade variações univariadas, devido à identidade de polarizaçãoVar( X )
4 Cov( XEu, Xj)=Var(Xi+Xj)−Var(Xi−Xj).
Isso nos diz que, se você entende as variações de variáveis aleatórias univariadas, já entende as covariâncias das variáveis bivariadas: elas são "apenas" combinações lineares de variações.
A expressão em questão é perfeitamente análogo: as variáveis foram padronizadas como em ( 1 ) . Podemos entender o que ele representa considerando o que significa para qualquer variável, padronizada ou não. Substituiríamos cada X i por sua versão centralizada, como em ( 2 ) , e formaríamos quantidades com três índices,Xi(1)Xi(2)
μ3(X)ijk=E[X′iX′jX′k].
Estes são os momentos centrais (multivariados) do grau 3 . Como em , eles formam um tensor: quando Y = A X , então(4)Y=AX
μ3(Y)ijk=∑l,m,naliamjankμ3(X)lmn.
Os índices nessa soma tripla variam em todas as combinações de números inteiros de a p .1p
O análogo da identidade de polarização é
24μ3(X)ijk=μ3(Xi+Xj+Xk)−μ3(Xi−Xj+Xk)−μ3(Xi+Xj−Xk)+μ3(Xi−Xj−Xk).
No lado direito, refere-se ao terceiro momento central (univariado): o valor esperado do cubo da variável centralizada. Quando as variáveis são padronizadas, esse momento é geralmente chamado de assimetria . Consequentemente, podemos pensar em μ 3 ( X ) como sendo a assimetria multivariada de X . É um tensor da classificação três (ou seja, com três índices) cujos valores são combinações lineares das assimetrias de várias somas e diferenças do X i . Se procurássemos interpretações, pensaríamos nesses componentes como medindo em pμ3μ3(X)XXipdimensões, independentemente da inclinação que esteja medindo em uma dimensão. Em muitos casos,
Os primeiros momentos medem a localização de uma distribuição;
Os segundos momentos (a matriz variância-covariância) medem sua propagação ;
Os segundos momentos padronizados (as correlações) indicam como a propagação varia no espaço dimensional; ep
Os terceiro e quarto momentos padronizados são usados para medir a forma de uma distribuição em relação à sua propagação.
Para elaborar o significado de uma "forma" multidimensional, observamos que podemos entender o PCA como um mecanismo para reduzir qualquer distribuição multivariada a uma versão padrão localizada na origem e spreads iguais em todas as direções. Depois de APC é realizada, em seguida, proporcionaria os indicadores mais simples da forma multidimensional da distribuição. Essas idéias se aplicam igualmente aos dados e às variáveis aleatórias, porque os dados sempre podem ser analisados em termos de sua distribuição empírica.μ3
Referência
Alan Stuart & J. Keith Ord, Teoria Avançada de Estatística de Kendall Quinta Edição, Volume 1: Teoria da Distribuição ; Capítulo 3, Momentos e Cumulantes . Oxford University Press (1987).
Apêndice: Prova da identidade de polarização
Seja sejam variáveis algébricas. Existem 2 n maneiras de somar e subtrair todos n deles. Quando levantar cada uma dessas somas-e-diferenças para o n th poder, pegar um sinal adequado para cada um desses resultados, e adicioná-los para cima, vamos obter um múltiplo de x 1 x 2 ⋯ x n .x1,…,xn2nnnthx1x2⋯xn
Mais formalmente, seja o conjunto de todos os n- pares de ± 1 , de modo que qualquer elemento s ∈ S seja um vetor s = ( s 1 , s 2 , … , s n ) cujo os coeficientes são todos ± 1 . A reivindicação éS={1,−1}nn±1s∈Ss=(s1,s2,…,sn)±1
2nn!x1x2⋯xn=∑s∈Ss1s2⋯sn(s1x1+s2x2+⋯+snxn)n.(1)
Com efeito, o Multinomial teorema indica que o coeficiente da monomial (em que o i j são números inteiros não negativos somando a n ) na expansão de qualquer termo no lado da mão direita éxi11xi22⋯xinnijn
(ni1,i2,…,in)si11si22⋯sinn.
Na soma , os coeficientes envolvendo x i 1 1 aparecem em pares, onde um de cada par envolve o caso s 1 = 1 , com coeficiente proporcional s 1 vezes s i 1 1 , igual a 1 e o outro de cada par envolve o caso s 1 = - 1 , com coeficiente proporcional a - 1 vezes ( - 1 ) i 1 , igual a ( - 1(1)xi11s1=1s1si111s1=−1−1(−1)i1 . Eles cancelam na soma sempre que i 1 + 1 é ímpar. O mesmo argumento se aplica a i 2 , … , i n . Consequentemente,as únicas monômios que ocorrem com coeficientes diferentes de zero deve ter poderes ímpares detodoo x i . O único monômio desse tipo é x 1 x 2 ⋯ x n . Aparece com coeficiente ( n(−1)i1+1i1+1i2,…,inxix1x2⋯xnem todos os2ntermos da soma. Consequentemente, seu coeficiente é2nn! ,QED.(n1,1,…,1)=n!2n2nn!
Precisamos pegar apenas metade de cada par associado com : ou seja, podemos restringir o lado direito de ( 1 ) aos termos com s 1 = 1 e reduzir pela metade o coeficiente do lado esquerdo para 2 n - 1 n ! . Isso dá precisamente as duas versões do Polarização Identidade citado nesta resposta para os casos n = 2 e n = 3 : 2 2 - 1 2 ! = 4 e 2 3 - 1x1(1)s1=12n−1n!n = 2n = 322 - 12 ! = 4 .23 - 13 ! = 24
É claro que a identidade de polarização para variáveis algébricas implica imediatamente para variáveis aleatórias: seja uma variável aleatória x i . Tome expectativas de ambos os lados. O resultado segue pela linearidade da expectativa.xEuXEu