Estou familiarizado com o uso de insights da Random Matrix Theory para determinar o número de componentes principais do PCA de uma matriz de covariância / correlação a ser usada para formar fatores.
Se o autovalor associado ao primeiro PC for grande, significa que os autovalores restantes devem ser pequenos (uma vez que a soma dos autovalores deve ser igual ao traço da matriz de correlação). Quando o primeiro PC é grande o suficiente, é possível que todos esses autovalores estejam abaixo dos limites inferiores na distribuição Marcenko-Pastur. Isso faz sentido que eles sejam baixos, não por causa do acaso, mas porque o primeiro valor próprio é muito grande. No entanto, isso não significa que eles contenham informações significativas. Em vez disso, faria sentido perguntar: "dado que o primeiro PC é um número grande, como seria a distribuição dos valores próprios restantes se os dados aleatórios fossem responsáveis por eles?"
Existe alguma pesquisa que resolva esse problema? Se for possível condicionar a distribuição Marcenko-Pastur ao conhecimento de um ou mais valores próprios, seria possível prosseguir iterativamente para determinar se os fatores refletem informações significativas.