A distribuição dos valores próprios, dado um, é conhecida


8

Estou familiarizado com o uso de insights da Random Matrix Theory para determinar o número de componentes principais do PCA de uma matriz de covariância / correlação a ser usada para formar fatores.

Se o autovalor associado ao primeiro PC for grande, significa que os autovalores restantes devem ser pequenos (uma vez que a soma dos autovalores deve ser igual ao traço da matriz de correlação). Quando o primeiro PC é grande o suficiente, é possível que todos esses autovalores estejam abaixo dos limites inferiores na distribuição Marcenko-Pastur. Isso faz sentido que eles sejam baixos, não por causa do acaso, mas porque o primeiro valor próprio é muito grande. No entanto, isso não significa que eles contenham informações significativas. Em vez disso, faria sentido perguntar: "dado que o primeiro PC é um número grande, como seria a distribuição dos valores próprios restantes se os dados aleatórios fossem responsáveis ​​por eles?"

Existe alguma pesquisa que resolva esse problema? Se for possível condicionar a distribuição Marcenko-Pastur ao conhecimento de um ou mais valores próprios, seria possível prosseguir iterativamente para determinar se os fatores refletem informações significativas.


Você está falando apenas de dados aleatórios de um fator (esferóide aleatório)?
ttnphns

Não sei o que você quer dizer com esferóide aleatório, mas geralmente pode haver mais de um fator a ser testado. Eu trabalhei com isso para que o problema de autovalor condicional possa ser escrito como , onde são os autovetores associados ao maiores autovalores, mas o que pude encontrar como as desigualdades que ligam os autovalores do produto de duas matrizes parecia bastante amplo. eig(Σ(Iββ)(Iββ))βn
John

Pensando nisso por um segundo, acho que obtive os resultados corretos. λ~±=(1+1Q±21Q)(i=1nλij=1Jλj)/n
João

Respostas:


3

Aqui está um documento sobre o seu problema: http://math.nyu.edu/faculty/avellane/LalouxPCA.pdf

A ideia é simples: você calcula a distribuição Marcenko-Pastur com uma variação modificada dos elementos da matriz. A variação modificada corresponde simplesmente à variação explicada por outro valor próprio que não o primeiro.

Como dito por john, você deve substituir por para os primeiros autovalores. Se você normalizou o seu problema e deseja remover apenas o primeiro componente, substitua por . Você obterá:σ2(i=1nλij=1Jλj)/nJσ21λ1n

ρ(λ)=nQ2π(1λ1)((λmaxλ)(λλmin)λ)

Com:

λmin/max=n(1λ1)(1+1Q±21Q)

Como provavelmente há mais informações em sua matriz do que apenas um grande autovalor e ruído, você observará alguma diferença. Por exemplo, em estudos de correlação de mercado, podemos observar um vazamento dos autovalores pela borda superior do espectro. (Corresponde aos setores financeiros).

Outra abordagem mencionada no documento é considerar como um parâmetro único na distribuição de marcenko. Você precisa ajustar esse parâmetro para ajustar sua curva.σ2

Para obter mais informações sobre técnicas e referências úteis, você pode dar uma olhada em: http://arxiv.org/abs/physics/0507111


Esta fórmula também tem necessidade de rever Q como o número de colunas foi reduzido por 1.
Rohit Arora
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.