As cargas (que não devem ser confundidas com os autovetores) têm as seguintes propriedades:
- Suas somas de quadrados dentro de cada componente são os autovalores (variações dos componentes).
- As cargas são coeficientes na combinação linear que prevê uma variável pelos componentes (padronizados).
Você extraiu 2 primeiros PCs de 4. Matriz de cargas e os valores próprios:A
A (loadings)
PC1 PC2
X1 .5000000000 .5000000000
X2 .5000000000 .5000000000
X3 .5000000000 -.5000000000
X4 .5000000000 -.5000000000
Eigenvalues:
1.0000000000 1.0000000000
Nesse caso, os dois valores próprios são iguais. É um caso raro no mundo real, diz que PC1 e PC2 são de igual força explicativa.
Suponha que você também calculou os valores dos componentes, Nx2
matriz e padronizou z (média = 0, st. Dev. = 1) dentro de cada coluna. Em seguida, (como ponto 2 acima diz), X = C A ' . Mas, porque você deixou apenas 2 PCs de 4 (você não tem mais 2 colunas A ) os valores de dados restaurados X não são exatas, - há um erro (se autovalores 3, 4 não são zero).CX^=CA′AX^
ESTÁ BEM. Quais são os coeficientes para prever componentes por variáveis ? Claramente, se estivesse cheio , estes seriam B = ( A - 1 ) ' . Com matriz de carga não-quadrado, que pode calcular-los como B = Um ⋅ d i um g ( e i g e n v um l u e s ) - 1 = ( A + ) ' , ondeA4x4
B=(A−1)′B=A⋅diag(eigenvalues)−1=(A+)′diag(eigenvalues)
é a matriz diagonal quadrada com os valores próprios na diagonal e +
sobrescrito indica pseudoinverso. No seu caso:
diag(eigenvalues):
1 0
0 1
B (coefficients to predict components by original variables):
PC1 PC2
X1 .5000000000 .5000000000
X2 .5000000000 .5000000000
X3 .5000000000 -.5000000000
X4 .5000000000 -.5000000000
Portanto, se é matriz de variáveis centralizadas originais (ou variáveis padronizadas, se você estiver executando o PCA com base em correlações e não em covariâncias), então C = X B ; C são pontuações padronizadas dos componentes principais. Qual no seu exemplo é:XNx4
C=XBC
PC1 = 0,5 * X1 + 0,5 * X2 + 0,5 * X3 + 0,5 * X4 ~ (X1 + X2 + X3 + X4) / 4
"o primeiro componente é proporcional à pontuação média"
PC2 = 0,5 * X1 + 0,5 * X2 - 0,5 * X3 - 0,5 * X4 = (0,5 * X1 + 0,5 * X2) - (0,5 * X3 + 0,5 * X4)
"o segundo componente mede a diferença entre o primeiro par de pontuações e o segundo par de pontuações"
B=A
B=A⋅diag(eigenvalues)−1B=R−1ARsendo a matriz de covariância (ou correlação) de variáveis. A última fórmula vem diretamente da teoria da regressão linear. As duas fórmulas são equivalentes apenas no contexto do PCA. Na análise fatorial, eles não são e, para calcular as pontuações fatoriais (que são sempre aproximadas na FA), deve-se confiar na segunda fórmula.
Respostas relacionadas minhas:
Mais detalhado sobre cargas vs vetores próprios .
Como as pontuações dos componentes principais e as pontuações dos fatores são calculadas .