Costumo ouvir que geralmente os 3 maiores autovalores são os mais importantes, enquanto aqueles próximos de zero são ruídos
Você pode testar isso. Veja o artigo vinculado neste post para obter mais detalhes. Novamente, se você estiver lidando com séries temporais financeiras, primeiro você deve corrigir a leptocurticidade (por exemplo, considere a série de retornos ajustados por garch, e não os retornos brutos).
Eu já vi alguns trabalhos de pesquisa investigando como as distribuições de autovalores de ocorrência natural diferem daquelas calculadas a partir de matrizes de correlação aleatória (novamente, distinguindo ruído de sinal).
Edward:> Geralmente, alguém faria o contrário: veja a distribuição multivariada de autovalores (de matrizes de correlação) provenientes do aplicativo que você deseja. Depois de identificar um candidato credível para a distribuição de valores próprios, deve ser bastante fácil gerar a partir deles.
O melhor procedimento para identificar a distribuição multivariada dos seus autovalores depende de quantos ativos você deseja considerar simultaneamente (ou seja, quais são as dimensões da sua matriz de correlação). Existe um truque interessante se ( é o número de ativos).p≤10p
Editar (comentários de Shabbychef)
procedimento de quatro etapas:
- Suponha que você tenha subamostras de dados multivariados. Você precisa de um estimador da matriz de variância-covariância para cada subamostra (você pode usar o estimador clássico ou uma alternativa robusta como o MCD rápido , que é bem implementado no matlab, SAS, S, R ...). Como de costume, se você estiver lidando com séries temporais financeiras, considere a série de retornos ajustados por garch, e não retornos brutos.j=1,...,JC~jj
- Para cada subamostra , calcule , ..., , os valores próprios de .jΛ~j= log(λ~j1)log(λ~jp)C~j
- Calcular , o casco convexo da matriz cuja j-ésima entrada é (novamente, isso é bem implementado em Matlab, R, ...) .CV(Λ~)J×pΛ~j
- Desenhe pontos aleatoriamente a partir do (isso é feito atribuindo peso a cada uma das bordas do onde , em que é um empate de uma distribuição exponencial de unidade (mais detalhes aqui ).w i C V ( ˜ Λ ) w i = γ iCV(Λ~)wiCV(Λ~) γiwi=γi∑pi=1γiγi
Uma limitação é que o cálculo rápido do casco convexo de uma série de pontos se torna extremamente lento quando o número de dimensões é maior que 10.J≥2