Qual é a medida de associação adequada de uma variável com um componente PCA (em um gráfico de biplot / carregamento)?


17

Estou usando FactoMineRpara reduzir meu conjunto de dados de medidas para as variáveis ​​latentes.

! [mapa variável] (http://f.cl.ly/items/071s190V1G3s1u0T0Y3M/pca.png)

O mapa variável acima é claro para mim interpretar, mas estou confuso quando se trata das associações entre as variáveis e componente 1. Olhando o mapa variável, ddpe covestá muito perto do componente no mapa, e ddpAbsé um pouco mais longe. Mas, não é isso que as correlações mostram:

$Dim.1
$Dim.1$quanti
        correlation      p.value
jittAbs   0.9388158 1.166116e-11
rpvi      0.9388158 1.166116e-11
sd        0.9359214 1.912641e-11
ddpAbs    0.9327135 3.224252e-11
rapAbs    0.9327135 3.224252e-11
ppq5      0.9319101 3.660014e-11
ppq5Abs   0.9247266 1.066303e-10
cov       0.9150209 3.865897e-10
npvi      0.8853941 9.005243e-09
ddp       0.8554260 1.002460e-07
rap       0.8554260 1.002460e-07
jitt      0.8181207 1.042053e-06
cov5_x    0.6596751 4.533596e-04
ps13_20  -0.4593369 2.394361e-02
ps5_12   -0.5237125 8.625918e-03

Depois, há a sin2quantidade, que é a altura para rpvi(por exemplo), mas essa medida não é a variável mais próxima do primeiro componente.

Variables
           Dim.1    ctr   cos2    Dim.2    ctr   cos2  
rpvi    |  0.939  8.126  0.881 |  0.147  1.020  0.022 |
npvi    |  0.885  7.227  0.784 |  0.075  0.267  0.006 |
cov     |  0.915  7.719  0.837 | -0.006  0.001  0.000 |
jittAbs |  0.939  8.126  0.881 |  0.147  1.020  0.022 |
jitt    |  0.818  6.171  0.669 |  0.090  0.380  0.008 |
rapAbs  |  0.933  8.020  0.870 |  0.126  0.746  0.016 |
rap     |  0.855  6.746  0.732 |  0.040  0.076  0.002 |
ppq5Abs |  0.925  7.884  0.855 |  0.091  0.392  0.008 |
ppq5    |  0.932  8.007  0.868 | -0.035  0.057  0.001 |
ddpAbs  |  0.933  8.020  0.870 |  0.126  0.746  0.016 |
ddp     |  0.855  6.746  0.732 |  0.040  0.076  0.002 |
pa      |  0.265  0.646  0.070 | -0.857 34.614  0.735 |
ps5_12  | -0.524  2.529  0.274 |  0.664 20.759  0.441 |
ps13_20 | -0.459  1.945  0.211 |  0.885 36.867  0.783 |
cov5_x  |  0.660  4.012  0.435 |  0.245  2.831  0.060 |
sd      |  0.936  8.076  0.876 |  0.056  0.150  0.003 |

Então, o que devo observar quando se trata da associação entre uma variável e o primeiro componente?


1
Embora todos os pontos do seu mapa (que parecem o gráfico de carregamento) sejam desorganizados, eu diria que o gráfico corresponde às saídas de "correlações". Essas "correlações" são as coordenadas no Dim1. Eles, as cargas, são correlações entre um fator e variáveis ​​(quando você baseia sua análise em dados padronizados = em correlações entre as variáveis).
ttnphns

Além das respostas abaixo, verifique este com mais links.
Ttnphns

Respostas:


25

Explicação de um gráfico de carregamento da análise PCA ou Fator.

O gráfico de carregamento mostra variáveis ​​como pontos no espaço dos principais componentes (ou fatores). As coordenadas das variáveis ​​são, geralmente, as cargas. (Se você combinar adequadamente o gráfico de carregamento com o gráfico de dispersão correspondente de casos de dados no mesmo espaço de componentes, isso seria biplot.)

Vamos ter 3 variáveis de algum modo correlacionadas, , W , U . Nós os centralizamos e executamos o PCA , extraindo dois primeiros componentes principais de três: F 1 e F 2 . Usamos cargas como coordenadas para fazer o gráfico de carga abaixo. As cargas são os elementos dos autovetores não padronizados, ou seja, autovetores dotados de variações de componentes correspondentes ou valores próprios.VWUF1F2

insira a descrição da imagem aqui

O gráfico de carregamento é o plano na imagem. Vamos considerar única variável . A flecha habitualmente desenhada em um gráfico de carregamento é o que é rotulado como h ' aqui; as coordenadas a 1 , a 2 são as cargas de V com F 1 e F 2 , respectivamente (por favor, saiba que terminologicamente é mais correto dizer "componente carrega uma variável", não vice-versa).Vha1a2VF1F2

Seta é a projecção, no plano componente, do vector h que representa a posição real da variável V nas variáveis espaço gerado por V , W , L . O comprimento do vector quadrado, h 2 , é a variância de um de V . Enquanto h 2 é a parte dessa variação explicada pelos dois componentes.hhVVWUh2aVh2

Carga, correlação, correlação projetada . Como as variáveis ​​foram centradas antes da extração dos componentes, é a correlação de Pearson entre V e o componente F 1 . Isso não deve ser confundido com cos α no gráfico de carregamento, que é outra quantidade: é a correlação de Pearson entre o componente F 1 e a variável vetorizada aqui como h ' . Como variável, h é a previsão de V pelos componentes (padronizados) na regressão linear (compare com o desenho da geometria de regressão linear aquicosϕVF1cosαF1hhV) Onde loadings 's são os coeficientes de regressão (quando os componentes são mantidos ortogonal, como extraída).a

Mais longe. Podemos lembrar (trigonometria) que . Pode ser entendido como o produto escalar entre o vetor V e o vetor de comprimento unitário F 1 : h 1 cos ϕ . F 1 define esse vetor de variação unitária porque não possui sua própria variação além da variação de V que ele explica (pela quantidade h ): ou seja, F 1a1=hcosϕVF1h1cosϕF1VhF1é uma entidade extraída de V, W, U e não uma entidade convidada de fora. Então, claramente, é acovariânciaentreVebpadronizado, em escala de unidades(para definirs1=a1=varVvarF1r=h1cosϕVb) componenteF1. Essa covariância é diretamente comparável às covariâncias entre as variáveis ​​de entrada; por exemplo, a covariância entreVeWserá o produto de seus comprimentos de vetores multiplicados pelo cosseno entre eles.s1=varF1=1F1VW

Em resumo: carregar pode ser visto como a covariância entre o componente padronizado e a variável observada, h 1 cos ϕ , ou equivalente entre o componente padronizado e a imagem explicada (por todos os componentes que definem o gráfico) da variável, h '1 cos α . Esse cos α pode ser chamado de correlação V-F1 projetada no subespaço do componente F1-F2.a1h1cosϕh1cosαcosα

A correlação acima mencionada entre uma variável e um componente, , também é chamado padronizado ou redimensionados carregamento . É conveniente na interpretação dos componentes porque está no intervalo [-1,1].cosϕ=a1/h

Relação com autovetores . O carregamento reescalonado não deve ser confundido com o elemento do vetor próprio que, como o conhecemos, é o cosseno do ângulo entre uma variável e um componente principal. Lembre-se de que o carregamento é um elemento do vetor próprio ampliado pelo valor singular do componente (raiz quadrada do valor próprio). Ou seja, para a variável V do nosso gráfico: a 1 = e 1 s 1 , onde s 1 é o st. desvio (não 1, mas original, ou seja, o valor singular) de F 1cosϕVa1=e1s1s11F1variavel latente. Então vem aquele elemento do vetor próprio , não ocosϕ emsi. A confusão em torno de duas palavras "cosseno" se dissolve quando lembramos em que tipo de representação espacial estamos. O valor do vetor próprioécossenodo ângulo de rotaçãode uma variável como eixo em pr. componente como eixo dentro do espaço variável (também conhecido como exibição de gráfico de dispersão),como aqui. Enquantocosϕem nosso gráfico de carregamentoé a medida de similaridade de cossenoentre uma variável como vetor e um pr. componente como ... bem ... como vetor também, se você quiser (embora seja desenhado como eixo no gráfico), - pois atualmente estamos noespaço de assuntoe1=a1s1=hs1cosϕcosϕcosϕ (qual é o gráfico de carregamento) em que variáveis ​​correlacionadas são fãs de vetores - não são eixos ortogonais - e os ângulos de vetores são a medida de associação - e não de rotação da base espacial.

Enquanto carregamento é a medida de associação angular (ou seja, tipo de produto escalar) entre uma variável e um componente em escala de unidade, e carga reescalonada é a carga padronizada em que a escala da variável é reduzida a unidade também, mas o coeficiente de vetor próprio é o carregamento em que o componente é "super-padronizado", ou seja, foi levado à escala (em vez de 1); alternativamente, pode ser pensado como uma carga redimensionada em que a escala da variável foi trazida para h / s (em vez de 1).1/sh/s

Então, o que são associações entre uma variável e um componente? Você pode escolher o que quiser. Pode ser o carregamento (covariância com o componente escalado por unidade) ; o carregamento reescalonado cos ϕ (= correlação componente-variável); correlação entre a imagem (previsão) e o componente (= correlação projetada cos α ). Você pode até escolher o coeficiente de vetor próprio e = a / s, se precisar (embora eu me pergunte o que poderia ser um motivo). Ou invente sua própria medida.a cosϕcosαe=a/s

O valor do vetor próprio quadrado ao significado da contribuição de uma variável para um pr. componente. O carregamento escalonado ao quadrado tem o significado da contribuição de um pr. componente em uma variável.

Relação com o PCA com base em correlações. Se analisássemos o PCA não apenas variáveis ​​centradas, mas padronizadas (centradas e, em seguida, com variação de unidade), os três vetores de variáveis ​​(não suas projeções no plano) teriam o mesmo comprimento de unidade. Em seguida, segue-se automaticamente que um carregamento é correlação , não covariância, entre uma variável e um componente. Mas essa correlação não será igual ao "carregamento padronizado" da imagem acima (com base na análise de variáveis ​​apenas centralizadas), porque o PCA das variáveis ​​padronizadas (PCA baseado em correlações) produz componentes diferentes do PCA das variáveis ​​centralizadas ( PCA baseado em covariâncias). No PCA baseado em correlação a 1cosϕ porque h = 1 , mas os componentes principaisnãosãoos mesmoscomponentes principais que obtemos do PCA baseado em covariâncias (leia,leia).a1=cosϕh=1

Na análise fatorial , o gráfico de carregamento tem basicamente o mesmo conceito e interpretação do PCA. A única (mas importante ) diferença é a substância de . Na análise fatorial, h ' - denominada então "comunalidade" da variável - é a parte de sua variância que é explicada por fatores comuns responsáveis ​​especificamente pelas correlações entre as variáveis. Enquanto no PCA, a parte explicada h 'hh hé uma "mistura" bruta - em parte representa correlação e parcialmente não relação entre variáveis. Com a análise fatorial, o plano de cargas em nossa imagem seria orientado de maneira diferente (na verdade, ele até se estenderá do espaço de nossas variáveis ​​3d para a quarta dimensão, que não podemos desenhar; o plano de cargas não será um subespaço de nossa Espaço 3d medido por e as outras duas variáveis) e a projeção h ' terão outro comprimento e outro ângulo α . (A diferença teórica entre PCA e análise fatorial é explicada geometricamente aqui por meio da representação do espaço de assunto e aqui por meio da representação de espaço variável.)Vhα


Resposta ao pedido de @Antoni Parellada nos comentários. É equivalente se você prefere falar em termos devariaçãoou em termos dedispersão(SS de desvio): variância = dispersão / (n-1), em quené o tamanho da amostra. Como estamos lidando com um conjunto de dados com o mesmon, a constante não altera nada nas fórmulas. SeXsão os dados (com as variáveis ​​V, W, U centralizadas), a composição automática de sua matriz de covariância (A) produz os mesmos valores próprios (variações de componente) e vetores próprios que a composição automática de (B) matriz de dispersão X Xa,b/(n1)nnXXXobtido após a divisão inicial de por Xfator n - 1 . Depois disso, na fórmula de um carregamento (veja a seção do meio da resposta),a1=hs1cosϕ, o termohést. desvion1a1=hs1cosϕh em (A) mas dispersão da raiz (isto é, norma)"V"em (B). Termos1, o qual é igual a1,éo padronizadoF1r do componente. desviovarVVs11F1 em (A) mas dispersão da raiz"F1"em (B). Finalmente,cosφ=ré a correlação queé insensívelao uso den-1em seus cálculos. Assim, simplesmentefalamosconceitualmente de variações (A) ou de dispersões (B), enquanto os próprios valores permanecem os mesmos na fórmula em ambos os casos.varF1F1cosϕ=rn1


Essa resposta é ótima e tem muitas informações, mas acho que a resposta real à pergunta estaria em "o que significa ?" α
shadowtalker

@ssdecontrol, adicionei uma linha sobre isso.
ttnphns

Eu tenho lido suas postagens sobre o tema e estou presa na parte aparentemente mais óbvia, quando você diz ... "claramente, . Comor=cosϕea1=varVvarF1r=h1cosϕr=cosϕ, segue quevarF1=1. No entanto,h=V=varV=h , enquanto queh=V=x2 . o que estou perdendo? varV=x2n1
Antoni Parellada

1
@AntoniParellada, verifique a nota de rodapé.
Ttnphns

1
Eu li o seu adendo, e é muito esclarecedor. Obrigado! Sem escolhendo frases específicas, isso explicaria algumas das transições de unidade-variância para a unidade de escala norma da ao longo da resposta, que anteriormente apresentaram alguma dificuldade (para mim). F1
Antoni Parellada
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.