Toda matriz de correlação é positiva definida?


11

Estou falando aqui de matrizes de correlações de Pearson.

Eu sempre ouvi dizer que todas as matrizes de correlação devem ser positivas semidefinidas. Meu entendimento é que matrizes definidas positivas devem ter valores próprios , enquanto matrizes semidefinidas positivas devem ter valores próprios 0 . Isso me faz pensar que minha pergunta pode ser reformulada como "É possível que matrizes de correlação tenham um autovalor = 0 ?">0 00 0=0 0

É possível que uma matriz de correlação (gerada a partir de dados empíricos, sem dados ausentes) tenha um valor próprio ou um valor próprio < 0 ? E se fosse uma matriz de correlação populacional?=0 0<0 0

Eu li na primeira resposta a esta pergunta sobre matrizes de covariância que

Considere três variáveis , Y e Z = X + Y . Sua matriz de covariância, M , não é positiva definida, pois existe um vetor z ( = ( 1 , 1 , - 1 ) ) para o qual z M z não é positivo.XYZ=X+YMz=(1 1,1 1,-1 1)zMz

No entanto, se em vez de uma matriz de covariância eu fizer esses cálculos em uma matriz de correlação, positivo. Portanto, acho que talvez a situação seja diferente para matrizes de correlação e covariância.zMz

Minha razão para perguntar é que fui perguntado sobre o stackoverflow , em relação a uma pergunta que fiz lá.


Se, por exemplo, dois atributos são uma coisa, apenas com nomes diferentes, a matriz é singular. Se dois atributos adicionar a uma constante, é novamente singular, et cetera .
precisa saber é o seguinte

Se uma matriz de covariância é singular, a matriz de correlação também é singular.
precisa saber é o seguinte

2
Quase duplicatas: toda matriz de correlação é semi-definida positiva? que tem menos foco no ângulo definido versus semi-definido, e toda matriz de covariância é positiva? o que é relevante porque uma covariância é essencialmente uma correlação redimensionada.
Silverfish

Respostas:


16

Matrizes de correlação não precisam ser positivas definidas.

Considere uma variável aleatória escalar X com variação diferente de zero. Então a matriz de correlação de X consigo mesma é a matriz de todos os que é semi-definida positiva, mas não definida positiva.

Quanto à correlação amostral, considere os dados amostrais para o exposto acima, com a primeira observação 1 e 1 e a segunda observação 2 e 2. Isso resulta na correlação amostral sendo a matriz de todas, portanto, não positiva definitiva.

Uma matriz de correlação de amostra, se calculada na aritmética exata (ou seja, sem erro de arredondamento) não pode ter autovalores negativos.


4
Vale a pena mencionar os possíveis efeitos dos valores ausentes na matriz de correlação da amostra . A confusão numérica não é a única razão para obter um valor próprio negativo em uma matriz de correlação / covariância de amostra.
Silverfish

11
Sim, não expliquei, mas estava assumindo, de acordo com a declaração da pergunta, "sem dados ausentes". Quando você entra no mundo selvagem e maluco de dados perdidos e ajustes, tudo vale.
Mark L. Stone

Sim, desculpe, você está certo. A pergunta dizia "sem dados ausentes" - apenas achei que vale a pena mencionar em algum lugar, já que futuros pesquisadores podem estar interessados, mesmo que o apetite do OP esteja saciado!
Silverfish

7

As respostas de @yoki e @MarkLStone (+1 para ambos) apontam que uma matriz de correlação populacional pode ter zero autovalores se as variáveis ​​forem linearmente relacionadas (como, por exemplo, no exemplo de @MarkLStone e X 1 = 2 X 2 no exemplo de @yoki).X1 1=X2X1 1=2X2

Além disso, uma matriz de correlação de amostra necessariamente terá zero autovalores se , ou seja, se o tamanho da amostra for menor que o número de variáveis. Nesse caso, as matrizes de covariância e correlação estarão no máximo no ranking n - 1 , portanto haverá pelo menos p - n + 1 zero autovalores. Consulte Por que uma matriz de covariância de amostra é singular quando o tamanho da amostra é menor que o número de variáveis? e Por que a classificação da matriz de covariância é no máximo n - 1 ?n<pn-1 1p-n+1 1n-1 1


Verdadeiro. Suponho que eu poderia ter e deveria ter fornecido essas informações também, mas meu objetivo era produzir um contraexemplo para refutar a hipótese do OP, mostrando assim sua invalidade. terá no máximo a posição n − 1, portanto haverá pelo menos (p − n + 1) zero autovalores ".
Mark L. Stone

4

Considere como um rv com média 0 e variação de 1. Seja Y = 2 X e calcule a matriz de covariância de ( X , Y ) . Como 2 X = Y , E [ Y 2 ] = 4 E [ X 2 ] = σ 2 Y , e E [ X Y ] = 2 E [ X 2 ]XY=2X(X,Y)2X=YE[Y2]=4E[X2]=σY2E[XY]=2E[X2]. Devido à configuração da média zero, os segundos momentos são iguais às covariâncias adequadas, por exemplo: .Cov(X,Y)=E[XY]-EXEY=E[XY]

Portanto, a matriz de covariância será: com um valor próprio zero. A matriz de correlação será: Λ = ( 1 1 1 1 ) , tendo um valor próprio zero também. Devido à correspondência linear entre X e Y , é fácil ver por que obtemos essa matriz de correlação - a diagonal sempre será 1 e a fora da diagonal é 1 por causa da relação linear.

Λ=(1 1224),
Λ=(1 11 11 11 1),
XY

2Λcov(X,Y)=E(XY)-E(X)E(Y)=2E[X2]=2(σX2+[E(X)]2)E(X2)=Var(X)+[E(X)]2

dEuumagΛ-1 1/2ΛdEuumagΛ1 1/2

@AntoniParellada, não sei exatamente o que você quer dizer - a covariância aqui é um cálculo direto. Mas vou editar e deixar isso mais claro. Obrigado.
yoki
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.