O que acho que aconteceu aqui é que todas as variáveis foram correlacionadas positivamente entre si. Nesse caso, o 1º PC geralmente se mostra muito próximo da média de todas as variáveis. Se todas as variáveis estão positivamente correlacionadas com exatamente o mesmo coeficiente de correlação , o 1º PC é exatamente proporcional à média de todas as variáveis, como explico aqui: A média de todas as variáveis pode ser vista como uma forma bruta de PCA?c
Nesse caso simples, é possível derivar matematicamente o relacionamento que você está perguntando. Considere uma matriz de correlação de tamanho parecida com a seguinte:Seu primeiro vetor próprio é igual a , que corresponde à média [escalada] de todas as variáveis. Seu valor próprio é . A soma de todos os autovalores, se é claro, dada pela soma de todos os elementos diagonais, isto é, . Portanto, a proporção da variação explicada pelo primeiro PC é igual an×n
⎛⎝⎜⎜⎜1cccc1cccc1cccc1⎞⎠⎟⎟⎟.
(1,1,1,1)⊤/n−−√λ1=1+(n−1)c∑λi=nR2=1n+n−1nc≈c.
Portanto, neste caso mais simples, a proporção de variação explicada pelo primeiro PC é 100% correlacionada com a correlação média e, para o grande é aproximadamente igual a ela. Qual é precisamente o que vemos no seu enredo.n
Espero que, para matrizes grandes, esse resultado se mantenha aproximadamente, mesmo que as correlações não sejam exatamente idênticas.
Atualizar. Usando a figura postada na pergunta, pode-se tentar estimar o notando que . Se tomarmos e , obtemos . O OP disse que os dados eram um "índice de ações DAX"; pesquisando no Google, vemos que aparentemente consiste em variáveis. Não é uma partida ruim.nn=(1−c)/(R2−c)c=0.5R2−c=0.02n=2530