Quais são as pontuações dos componentes principais (pontuações PC, pontuações PCA)?
Quais são as pontuações dos componentes principais (pontuações PC, pontuações PCA)?
Respostas:
Primeiro, vamos definir uma pontuação.
John, Mike e Kate obtêm as seguintes porcentagens para os exames de Matemática, Ciências, Inglês e Música da seguinte maneira:
Maths Science English Music
John 80 85 60 55
Mike 90 85 70 45
Kate 95 80 40 50
Nesse caso, existem 12 pontuações no total. Cada pontuação representa os resultados do exame para cada pessoa em um determinado assunto. Portanto, uma pontuação neste caso é simplesmente uma representação de onde uma linha e coluna se cruzam.
Agora vamos definir informalmente um componente principal.
Na tabela acima, você pode plotar facilmente os dados em um gráfico 2D? Não, porque existem quatro assuntos (o que significa quatro variáveis: matemática, ciências, inglês e música), ou seja:
Mas como você traçaria 4 assuntos?
No momento, temos quatro variáveis, cada uma representando apenas um assunto. Portanto, um método para contornar isso pode ser, de alguma forma, combinar os sujeitos em talvez apenas duas novas variáveis que podemos traçar. Isso é conhecido como dimensionamento multidimensional .
A análise de componentes principais é uma forma de dimensionamento multidimensional. É uma transformação linear das variáveis em um espaço dimensional inferior que retém a quantidade máxima de informações sobre as variáveis. Por exemplo, isso significaria que poderíamos examinar os tipos de assuntos em que cada aluno talvez seja mais adequado.
Um componente principal é, portanto, uma combinação das variáveis originais após uma transformação linear. Em R, é o seguinte:
DF<-data.frame(Maths=c(80, 90, 95), Science=c(85, 85, 80), English=c(60, 70, 40), Music=c(55, 45, 50))
prcomp(DF, scale = FALSE)
O que lhe dará algo parecido com isto (dois primeiros componentes principais apenas por uma questão de simplicidade):
PC1 PC2
Maths 0.27795606 0.76772853
Science -0.17428077 -0.08162874
English -0.94200929 0.19632732
Music 0.07060547 -0.60447104
A primeira coluna aqui mostra coeficientes de combinação linear que define o componente principal # 1 e a segunda coluna mostra coeficientes para o componente principal # 2.
Então, o que é uma pontuação de componente principal?
É uma pontuação da tabela no final deste post (veja abaixo).
A saída acima de R significa que agora podemos plotar a pontuação de cada pessoa em todos os assuntos em um gráfico 2D da seguinte maneira. Primeiro, precisamos centralizar as variáveis originais que minha coluna subtraindo significa:
Maths Science English Music
John -8.33 1.66 3.33 5
Mike 1.66 1.66 13.33 -5
Kate 6.66 -3.33 -16.66 0
E então, para formar combinações lineares para obter as pontuações PC1 e PC2 :
x y
John -0.28*8.33 + -0.17*1.66 + -0.94*3.33 + 0.07*5 -0.77*8.33 + -0.08*1.66 + 0.19*3.33 + -0.60*5
Mike 0.28*1.66 + -0.17*1.66 + -0.94*13.33 + -0.07*5 0.77*1.66 + -0.08*1.66 + 0.19*13.33 + -0.60*5
Kate 0.28*6.66 + 0.17*3.33 + 0.94*16.66 + 0.07*0 0.77*6.66 + 0.08*3.33 + -0.19*16.66 + -0.60*0
O que simplifica para:
x y
John -5.39 -8.90
Mike -12.74 6.78
Kate 18.13 2.12
Existem seis pontuações dos componentes principais na tabela acima. Agora você pode plotar as pontuações em um gráfico 2D para ter uma idéia do tipo de assuntos em que cada aluno talvez seja mais adequado.
A mesma saída pode ser obtida em R digitando prcomp(DF, scale = FALSE)$x
.
EDIT 1: Hmm, eu provavelmente poderia ter pensado em um exemplo melhor, e há mais do que o que eu coloquei aqui, mas espero que você entenda.
EDIT 2: crédito total para @drpaulbrewer por seu comentário ao melhorar esta resposta.
apply(dtf, 1, function(x) sum(scale(x)))
prcomp
resultados. Antes disso não.
A análise de componentes principais (PCA) é uma abordagem popular que analisa a variação quando se lida com dados multivariados. Você tem variáveis aleatórias X1, X2, ... Xn, todas correlacionadas (positiva ou negativamente) em graus variados, e deseja entender melhor o que está acontecendo. O PCA pode ajudar.
O que o PCA fornece é uma mudança de variável em Y1, Y2, ..., Yn (ou seja, o mesmo número de variáveis), que são combinações lineares dos Xs. Por exemplo, você pode ter Y1 = 2,1 X1 - 1,76 X2 + 0,2 X3 ...
O Ys é a propriedade legal de que cada um deles tem correlação zero entre si. Melhor ainda, você os obtém em ordem decrescente de variação. Portanto, Y1 "explica" uma grande parte da variação das variáveis originais, Y2 um pouco menos e assim por diante. Geralmente após os primeiros Ys, as variáveis tornam-se um tanto sem sentido. A pontuação PCA para qualquer um dos Xi é apenas o coeficiente em cada um dos Ys. No meu exemplo anterior, a pontuação para X2 no primeiro componente principal (Y1) é 1,76.
A maneira como o PCA faz essa mágica é computando autovetores da matriz de covariância.
Para dar um exemplo concreto, imagine X1, ... X10 são alterações nos rendimentos de títulos do Tesouro de 1 ano, 2 anos, ..., 10 anos durante um período de tempo. Quando você calcula o PCA, geralmente descobre que o primeiro componente possui pontuações para cada ligação do mesmo sinal e aproximadamente o mesmo sinal. Isso indica que a maior parte da variação no rendimento dos títulos vem de tudo que se move da mesma maneira: "mudanças paralelas" para cima ou para baixo. O segundo componente normalmente mostra "inclinação" e "achatamento" da curva e possui sinais opostos para X1 e X10.
PC1 > PC2 > ... > PCn
e a soma de suas variações é igual à soma das variações do conjunto de variáveis inicial, uma vez que o PCA é computado na matriz de covariância, ou seja, as variáveis são padronizadas (SD = 1, VAR = 1).
Digamos que você tenha uma nuvem de N pontos em, digamos, 3D (que pode ser listado em uma matriz 100x3). Em seguida, a análise de componentes principais (PCA) ajusta um elipsóide de orientação arbitrária nos dados. A pontuação do componente principal é o comprimento dos diâmetros do elipsóide.
Na direção em que o diâmetro é grande, os dados variam muito, enquanto na direção em que o diâmetro é pequeno, os dados variam muito. Se você deseja projetar dados Nd em um gráfico de dispersão em 2-d, plote-os ao longo dos dois maiores componentes principais, porque com essa abordagem você exibe a maior parte da variação nos dados.
Eu gosto de pensar nas pontuações dos componentes principais como "basicamente sem sentido" até você dar algum significado a elas. Interpretar as pontuações dos PCs em termos de "realidade" é um negócio complicado - e realmente não pode haver uma maneira única de fazê-lo. Depende do que você sabe sobre as variáveis específicas que estão entrando no PCA e como elas se relacionam entre si em termos de interpretações.
No que diz respeito à matemática, eu gosto de interpretar as pontuações do PC como as coordenadas de cada ponto, com relação aos eixos componentes principais. Então, nas variáveis brutas você tem
Então você pode pensar nos autovetores como descrevendo onde estão as "linhas retas" que descrevem os PCs. Em seguida, as pontuações dos componentes principais descrevem onde cada ponto de dados se encontra em cada linha reta, em relação ao "centríodo" dos dados. Você também pode pensar nas pontuações do PC em combinação com os pesos / autovetores como uma série de previsões de classificação 1 para cada um dos pontos de dados originais, que têm a forma:
Os principais componentes de uma matriz de dados são os pares autovetor-autovalor de sua matriz de variância-covariância. Em essência, eles são as peças correlacionadas da variação. Cada uma é uma combinação linear das variáveis para uma observação - suponha que você avalie w, x, y, z em cada grupo de assuntos. Seu primeiro PC pode parecer algo como
0,5w + 4x + 5y - 1,5z
As cargas (vetores próprios) aqui são (0,5, 4, 5, -1,5). A pontuação (autovalor) de cada observação é o valor resultante quando você substitui o observado (w, x, y, z) e calcula o total.
Isso é útil quando você projeta coisas nos componentes principais (para, por exemplo, detecção de outlier), porque você apenas plota as pontuações em cada uma delas, como faria com outros dados. Isso pode revelar muito sobre seus dados se grande parte da variação estiver correlacionada (== nos primeiros PCs).
Uma saída do R no PCA (um exemplo falso) se parece com isso. PC1, PC2 ... são componentes principais 1, 2 ... O exemplo abaixo está mostrando apenas os 8 primeiros componentes principais (em 17). Você também pode extrair outros elementos do PCA, como carregamentos e pontuações.
Importance of components:
PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8
Standard deviation 1.0889 1.0642 1.0550 1.0475 1.0387 1.0277 1.0169 1.0105
Proportion of Variance 0.0697 0.0666 0.0655 0.0645 0.0635 0.0621 0.0608 0.0601
Cumulative Proportion 0.0697 0.1364 0.2018 0.2664 0.3298 0.3920 0.4528 0.5129
As pontuações dos componentes principais são um grupo de pontuações obtidas após uma Análise de Componentes Principais (PCA). No PCA, as relações entre um grupo de pontuações são analisadas de modo que um número igual de novas variáveis "imaginárias" (aka componentes principais) seja criado. A primeira dessas novas variáveis imaginárias está maximamente correlacionada com todo o grupo original de variáveis. O próximo é um pouco menos correlacionado, e assim por diante até o ponto em que se você usasse todos os principais componentes pontuando para prever qualquer variável do grupo inicial, seria capaz de explicar toda a sua variação. A maneira pela qual o PCA prossegue é complexa e possui certas restrições. Entre eles, está a restrição de que a correlação entre dois componentes principais (variáveis imaginárias) seja zero; assim não