Interpretação de biplots na análise de componentes principais


30

Encontrei este belo tutorial: Um manual de análises estatísticas usando R. Capítulo 13. Análise de componentes principais: O heptatlo olímpico sobre como fazer PCA na linguagem R. Não entendo a interpretação da Figura 13.3:

biplot

Então, eu estou plotando o primeiro vetor próprio vs o segundo vetor próprio. O que isso significa? Suponha que o autovalor correspondente ao primeiro vetor próprio explique 60% da variação no conjunto de dados e o segundo valor próprio-vetor próprio explique 20% da variação. O que significa plotá-los um contra o outro?


Respostas:


22

ppXn×p

Xvocêvocêpvariáveis ​​ou uma combinação delas. No seu caso, a Fig. 13.3 no HSAUR mostra que Joyner-Kersee (Jy-K) tem uma pontuação alta (negativa) no 1º eixo, sugerindo que ele teve um desempenho geral muito bom em todos os eventos. A mesma linha de raciocínio se aplica à interpretação do segundo eixo. Dou uma olhada muito breve na figura para não entrar em detalhes e minha interpretação é certamente superficial. Presumo que você encontrará mais informações no livro didático HSAUR. Aqui vale a pena notar que tanto as variáveis ​​quanto os indivíduos são mostrados no mesmo diagrama (isso é chamado de biplotr(x1 1,x2)=porque2(x1 1,x2)

Acho que, no entanto, é melhor você começar a ler um livro introdutório sobre análise multivariada para obter uma visão profunda dos métodos baseados em PCA. Por exemplo, a BS Everitt escreveu um excelente livro sobre este tópico, An R e S-Plus ® Companion to Multivariate Analysis , e você pode conferir o site do companheiro para obter ilustrações. Existem outros ótimos pacotes R para análise de dados multivariada aplicada, como ade4 e FactoMineR .


r(x1 1,x2)=porque(x1 1,x2)porque2(x1 1,x2)

21

O gráfico está mostrando:

  • a pontuação de cada caso (ou seja, atleta) nos dois primeiros componentes principais
  • o carregamento de cada variável (ou seja, cada evento esportivo) nos dois primeiros componentes principais.

Os eixos esquerdo e inferior estão mostrando pontuações [normalizadas] dos componentes principais; os eixos superior e direito estão mostrando as cargas.

Em geral, assume-se que dois componentes explicam uma quantidade suficiente da variação para fornecer uma representação visual significativa da estrutura de casos e variáveis.

Você pode ver quais eventos estão próximos no espaço. Onde isso se aplica, isso pode sugerir que os atletas que são bons em um evento provavelmente também sejam bons nos outros eventos proximais. Como alternativa, você pode usar o gráfico para ver quais eventos estão distantes. Por exemplo, o dardo parece ser um pouco estranho e um evento importante que define o segundo componente principal. Talvez um tipo diferente de atleta seja bom em dardo do que na maioria dos outros eventos.

Obviamente, mais poderia ser dito sobre interpretação substantiva.



Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.