Intuição / interpretação de uma distribuição de autovalores de uma matriz de correlação?


13

Qual é a sua intuição / interpretação de uma distribuição de autovalores de uma matriz de correlação? Costumo ouvir que geralmente os 3 maiores autovalores são os mais importantes, enquanto aqueles próximos de zero são ruídos. Além disso, vi alguns trabalhos de pesquisa investigando como as distribuições de autovalores de ocorrência natural diferem daquelas calculadas a partir de matrizes de correlação aleatória (novamente, distinguindo ruído de sinal).

Sinta-se à vontade para elaborar suas idéias.


Você tem em mente alguma aplicação em particular, ou seja, procura conselhos gerais sobre quantos EVs precisamos considerar além de qualquer aplicação (por exemplo, em um lado matemático puro) ou deve ser aplicada a um contexto específico (por exemplo, análise fatorial, PCA, etc.)?
chl

Estou interessado mais no lado matemático, ou seja, autovalores como uma propriedade dos dados subjacentes a uma matriz de correlação. Se faz sentido discutir isso em termos de contexto específico, sinta-se à vontade para fazê-lo também.
Eduardas 20/09/10

Respostas:


4

Costumo ouvir que geralmente os 3 maiores autovalores são os mais importantes, enquanto aqueles próximos de zero são ruídos

Você pode testar isso. Veja o artigo vinculado neste post para obter mais detalhes. Novamente, se você estiver lidando com séries temporais financeiras, primeiro você deve corrigir a leptocurticidade (por exemplo, considere a série de retornos ajustados por garch, e não os retornos brutos).

Eu já vi alguns trabalhos de pesquisa investigando como as distribuições de autovalores de ocorrência natural diferem daquelas calculadas a partir de matrizes de correlação aleatória (novamente, distinguindo ruído de sinal).

Edward:> Geralmente, alguém faria o contrário: veja a distribuição multivariada de autovalores (de matrizes de correlação) provenientes do aplicativo que você deseja. Depois de identificar um candidato credível para a distribuição de valores próprios, deve ser bastante fácil gerar a partir deles.

O melhor procedimento para identificar a distribuição multivariada dos seus autovalores depende de quantos ativos você deseja considerar simultaneamente (ou seja, quais são as dimensões da sua matriz de correlação). Existe um truque interessante se ( é o número de ativos).p10p

Editar (comentários de Shabbychef)

procedimento de quatro etapas:

  1. Suponha que você tenha subamostras de dados multivariados. Você precisa de um estimador da matriz de variância-covariância para cada subamostra (você pode usar o estimador clássico ou uma alternativa robusta como o MCD rápido , que é bem implementado no matlab, SAS, S, R ...). Como de costume, se você estiver lidando com séries temporais financeiras, considere a série de retornos ajustados por garch, e não retornos brutos.j=1,...,JC~jj
  2. Para cada subamostra , calcule , ..., , os valores próprios de .jΛ~j= log(λ~1j)log(λ~pj)C~j
  3. Calcular , o casco convexo da matriz cuja j-ésima entrada é (novamente, isso é bem implementado em Matlab, R, ...) .CV(Λ~)J×pΛ~j
  4. Desenhe pontos aleatoriamente a partir do (isso é feito atribuindo peso a cada uma das bordas do onde , em que é um empate de uma distribuição exponencial de unidade (mais detalhes aqui ).w i C V ( ˜ Λ ) w i = γ iCV(Λ~)wiCV(Λ~) γiwi=γii=1pγiγi

Uma limitação é que o cálculo rápido do casco convexo de uma série de pontos se torna extremamente lento quando o número de dimensões é maior que 10.J2


1
Estou curioso: qual é o truque?
precisa saber é o seguinte

Você quer dizer os vetores próprios de em 3? não valores ? C~
precisa

não. é um escalar. λ1
user603

Este é um procedimento muito estranho; foi publicado em algum lugar?
2141010 shabbychef

@Shabbychev:> não, mas tive a oportunidade de trabalhar em um problema relacionado (apenas um que envolvia séries temporais) há um tempo atrás (mesmo problema que este ) stats.stackexchange.com/questions/2572/… )
user603

11

Os autovalores fornecem magnitudes de componentes principais da propagação de dados.


(fonte: yaroslavvb.com ) O
primeiro conjunto de dados foi gerado a partir de Gaussian com matriz de covariância segundo conjunto de dados é o primeiro conjunto de dados rotacionado por(3001)π/4


2

Uma maneira de eu ter estudado esse problema no passado é construir os 'portfólios próprios' da matriz de correlação. Ou seja, pegue o vetor próprio associado ao maior valor próprio da matriz de correlação e dimensione-o para uma alavancagem bruta de 1 (ou seja, torne a soma absoluta do vetor igual a um). Em seguida, verifique se é possível encontrar alguma conexão física ou financeira real entre as ações que possuem grande representação no portfólio.k

Normalmente, o primeiro portfólio próprio é quase igual em todos os nomes, ou seja, o portfólio de 'mercado' que consiste em todos os ativos com pesos iguais em dólares. O segundo portfólio próprio pode ter algum significado semântico, dependendo do período em que você olha: por exemplo, principalmente estoques de energia ou bancos, etc. Na minha experiência, seria difícil fazer qualquer história do quinto portfólio próprio ou além, e isso depende em parte da seleção do universo e do período considerado. Isso é bom porque geralmente o quinto valor próprio não está muito além dos limites impostos pela distribuição Marchenko-Pastur.


1

Cada valor de suas variáveis ​​define um ponto em um espaço dimensionalEssa nuvem de pontos geralmente é do tipo elipsóide (se não for, então você não deve considerar as variáveis ​​como linearmente relacionadas e a correlação não significa muito). O eixo do elipsóide corresponde aos autovetores da matriz de correlação e sua "força" aos seus autovalores. A prova pode ser encontrada em qualquer livro de análise de séries temporais que cubra a Análise de componentes principais. A intuição solta de por que o PCA ou outros métodos baseados em autovalores são importantes é que você tem algum processo com algumas causas "principais" e o restante é "ruído".NN

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.