Como interpretar carregamentos de PCA?

Ao ler sobre o PCA, deparei-me com a seguinte explicação:

Suponha que tenhamos um conjunto de dados em que cada ponto de dados represente as pontuações de um único aluno em um teste de matemática, um teste de física, um teste de compreensão de leitura e um teste de vocabulário.

Encontramos os dois primeiros componentes principais, que capturam 90% da variabilidade nos dados e interpretam suas cargas. Concluímos que o primeiro componente principal representa a capacidade acadêmica geral e o segundo representa um contraste entre a capacidade quantitativa e a capacidade verbal.

O texto afirma que os carregamentos de PC1 e PC2 são para PC1 e para PC2 e oferece a seguinte explicação: $(0.5, 0.5, 0.5, 0.5)$ $(0.5, 0.5, -0.5, -0.5)$

[O] primeiro componente é proporcional à pontuação média e o segundo componente mede a diferença entre o primeiro par de pontuações e o segundo par de pontuações.

Não consigo entender o que essa explicação significa.

pca

— priyanka
fonte

De alguma forma, a resposta de @ ttnphns entra em muitos detalhes matemáticos, mas acho que a pergunta original era realmente direta: por que o vetor de cargas para PC1 de (0,5; 0,5; 0,5; 0,5) significa que o primeiro componente é "proporcional à pontuação média" "? Bem, a resposta é que as cargas são [proporcionais aos] coeficientes na combinação linear de variáveis originais que compõem PC1. Portanto, seu primeiro PC1 é a soma das quatro variáveis vezes 0,5. O que significa que é proporcional à média das quatro variáveis. E semelhante ao PC2. Eu acho que isso responde à pergunta original.

— Ameba diz Reinstate Monica

@amoeba - Você sabe o quão difícil é encontrar uma explicação tão simples das cargas. De alguma forma, em todos os lugares é um bocado de bílgula em todo o corpo antes de eu decidir seguir para a próxima explicação no google. Obrigado!

— MiloMinderbinder

As cargas (que não devem ser confundidas com os autovetores) têm as seguintes propriedades:

Suas somas de quadrados dentro de cada componente são os autovalores (variações dos componentes).
As cargas são coeficientes na combinação linear que prevê uma variável pelos componentes (padronizados).

Você extraiu 2 primeiros PCs de 4. Matriz de cargas e os valores próprios: $\bf A$

A (loadings)
         PC1           PC2
X1   .5000000000   .5000000000 
X2   .5000000000   .5000000000 
X3   .5000000000  -.5000000000 
X4   .5000000000  -.5000000000
Eigenvalues:
    1.0000000000  1.0000000000

Nesse caso, os dois valores próprios são iguais. É um caso raro no mundo real, diz que PC1 e PC2 são de igual força explicativa.

Suponha que você também calculou os valores dos componentes, Nx2matriz e padronizou z (média = 0, st. Dev. = 1) dentro de cada coluna. Em seguida, (como ponto 2 acima . Mas, porque você deixou apenas 2 PCs de 4 (você não tem mais 2 colunas ) os valores de dados restaurados não são exatas, - há um erro (se autovalores 3, 4 não são zero). $\bf C$ $\bf \hat {X}=CA'$ $\bf A$ $\bf \hat {X}$

ESTÁ BEM. Quais são os coeficientes para prever componentes por variáveis ? Claramente, se estivesse cheio , estes seriam . Com matriz de carga não-quadrado, que pode calcular-los como , onde $\bf A$ 4x4 $\bf B=(A^{-1})'$ $\bf B= A \cdot diag(eigenvalues)^{-1}=(A^+)'$ diag(eigenvalues)é a matriz diagonal quadrada com os valores próprios na diagonal e +sobrescrito indica pseudoinverso. No seu caso:

diag(eigenvalues):
1 0
0 1

B (coefficients to predict components by original variables):
    PC1           PC2
X1 .5000000000   .5000000000 
X2 .5000000000   .5000000000 
X3 .5000000000  -.5000000000 
X4 .5000000000  -.5000000000

Portanto, se é matriz de variáveis centralizadas originais (ou variáveis padronizadas, se você estiver executando o PCA com base em correlações e não em covariâncias), então ; são pontuações padronizadas dos componentes principais. Qual no seu exemplo é: $\bf X$ Nx4 $\bf C=XB$ $\bf C$

PC1 = 0,5 * X1 + 0,5 * X2 + 0,5 * X3 + 0,5 * X4 ~ (X1 + X2 + X3 + X4) / 4

"o primeiro componente é proporcional à pontuação média"

PC2 = 0,5 * X1 + 0,5 * X2 - 0,5 * X3 - 0,5 * X4 = (0,5 * X1 + 0,5 * X2) - (0,5 * X3 + 0,5 * X4)

"o segundo componente mede a diferença entre o primeiro par de pontuações e o segundo par de pontuações"

$\bf B=A$

$\bf B= A \cdot diag(eigenvalues)^{-1}$ $\bf B=R^{-1}A$ $\bf R$ sendo a matriz de covariância (ou correlação) de variáveis. A última fórmula vem diretamente da teoria da regressão linear. As duas fórmulas são equivalentes apenas no contexto do PCA. Na análise fatorial, eles não são e, para calcular as pontuações fatoriais (que são sempre aproximadas na FA), deve-se confiar na segunda fórmula.

Respostas relacionadas minhas:

Mais detalhado sobre cargas vs vetores próprios .

Como as pontuações dos componentes principais e as pontuações dos fatores são calculadas .

— ttnphns
fonte

Se 2 componentes de 4 são responsáveis por 90% da variabilidade, como seus valores próprios somam 2?

— Nick Cox

Nick, acredito que isso é uma pergunta para o OP. Ele não forneceu os dados ou a matriz de covariância / correlação. Tudo o que tínhamos dele é uma matriz de carregamento (um tanto irrealista) dos 2 primeiros PCs.

— ttnphns

4 \times 4

$4\times4$

4

$4$

1

$1$

50 %

$50\%$

90 %

$90\%$