Esta questão é amplamente sobre definições de PCA / FA, portanto, as opiniões podem diferir. Minha opinião é que PCA + varimax não deve ser chamado de PCA ou FA, mas explicitamente referido, por exemplo, como "PCA com rotação de varimax".
Devo acrescentar que este é um tópico bastante confuso. Nesta resposta, quero explicar o que realmente é uma rotação ; isso exigirá um pouco de matemática. Um leitor casual pode pular diretamente para a ilustração. Somente então podemos discutir se a rotação do PCA + deve ou não ser chamada de "PCA".
Uma referência é o livro de Jolliffe "Análise de componentes principais", seção 11.1 "Rotação de componentes principais", mas acho que poderia ser mais claro.
Seja uma matriz de dados n × p que assumimos estar centrada. O PCA equivale ( veja minha resposta aqui ) a uma decomposição de valor singular: X = U S V ⊤ . Existem duas visualizações equivalentes, mas complementares, nessa decomposição: uma visualização mais "projeção" no estilo PCA e uma visualização mais "variáveis latentes" no estilo FA.Xn×pX=USV⊤
De acordo com a visão no estilo PCA, encontramos várias direções ortogonais (esses são vetores próprios da matriz de covariância, também chamados de "direções principais" ou "eixos") e "componentes principais" U S (também chamado componente principal " scores ") são projeções dos dados nessas direções. Os componentes principais não estão correlacionados, o primeiro tem variação máxima possível, etc. Podemos escrever: X = U S ⋅ V ⊤ = Pontuações ⋅ Direções principais .VUS
X=US⋅V⊤=Scores⋅Principal directions.
De acordo com a visão do estilo FA, encontramos alguns "fatores latentes" de variação unitária não correlacionados que dão origem às variáveis observadas por meio de "cargas". De fato, são componentes principais padronizados (não correlacionados e com variação de unidade), e se definirmos cargas comoL=VS/ √U˜=n−1−−−−−√U , então X= √L=VS/n−1−−−−−√(Observe que S ⊤=S.) Ambas as visualizações são equivalentes. Observe que as cargas são vetores próprios dimensionados pelos respectivos valores próprios (S/ √
X=n−1−−−−−√U⋅(VS/n−1−−−−−√)⊤=U˜⋅L⊤=Standardized scores⋅Loadings.
S⊤=S são autovalores da matriz de covariância).
S/n−1−−−−−√
(Devo acrescentar entre parênteses que PCA FA≠ ; FA visa explicitamente em encontrar fatores latentes que são linearmente mapeados para as variáveis observadas através de cargas, é mais flexível do que o PCA e produz diferentes cargas É por isso que eu prefiro chamar o anterior ". Visualização no estilo da FA no PCA "e não na FA, mesmo que algumas pessoas considerem um dos métodos de FA.)
Agora, o que faz uma rotação? Por exemplo, uma rotação ortogonal, como varimax. Em primeiro lugar, ele considera somente componentes, isto é: X ≈ L K S K V ⊤ k = ~ L K G ⊤ k . Em seguida, é necessária uma matriz quadrada ortogonal k × k T e conecta T T ⊤ = I a esta decomposição: X ≈ U k S k V ⊤ k = Uk<p
X≈UkSkV⊤k=U˜kL⊤k.
k×kTTT⊤=I onde cargas rodados são dadas por
L r o t = L K T , e rodado contagens normalizadas são dadas por
~ L r o t = ~ L k T . (O objetivo disso é encontrar
T tal que
L r o tX≈UkSkV⊤k=UkTT⊤SkV⊤k=U˜rotL⊤rot,
Lrot=LkTU˜rot=U˜kTTLrot tornou-se o mais próximo possível do escasso possível, para facilitar sua interpretação.)
Observe que o que é girado são: (1) pontuações padronizadas, (2) cargas. Mas não as pontuações brutas e nem as principais direções! Portanto, a rotação acontece no espaço latente , não no espaço original. Isso é absolutamente crucial.
LrotkRpkX
Σ≈LkL⊤k=LrotL⊤rot.
Mas o ponto de vista no estilo PCA praticamente entrou em colapso. As cargas rotacionadas não correspondem mais às direções / eixos ortogonais em , ou seja, as colunas de não são ortogonais! Pior, se você [ortogonalmente] projetar os dados nas direções dadas pelas cargas rotacionadas, obterá projeções correlacionadas (!) E não poderá recuperar as pontuações. [Em vez disso, para calcular as pontuações padronizadas após a rotação, é necessário multiplicar a matriz de dados com o pseudo-inverso de cargas . Como alternativa, pode-se simplesmente girar as pontuações padronizadas originais com a matriz de rotação:RpLrotU˜rot=X(L+rot)⊤U˜rot=U˜T ] Além disso, os componentes rotacionados não capturam sucessivamente a quantidade máxima de variação: a variação é redistribuída entre os componentes (mesmo embora todos os componentes rotacionados capturem exatamente a mesma variação que todos os componentes principais originais).kk
Aqui está uma ilustração. Os dados são uma elipse 2D esticada ao longo da diagonal principal. A primeira direção principal é a diagonal principal, a segunda é ortogonal a ela. Os vetores de carregamento de PCA (vetores próprios dimensionados pelos valores próprios) são mostrados em vermelho - apontando nas duas direções e também esticados por um fator constante de visibilidade. Apliquei uma rotação ortogonal em nas cargas. Os vetores de carregamento resultantes são mostrados em magenta. Observe como eles não são ortogonais (!).30∘
Uma intuição no estilo FA aqui é a seguinte: imagine um "espaço latente" onde pontos preenchem um pequeno círculo (proveniente de um Gaussiano 2D com variações de unidade). Essa distribuição de pontos é então esticada ao longo das cargas do PCA (vermelho) para se tornar a elipse de dados que vemos nesta figura. No entanto, a mesma distribuição de pontos pode ser rotacionada e esticada ao longo das cargas rotativas de PCA (magenta) para se tornar a mesma elipse de dados .
[Para realmente ver que uma rotação ortogonal de cargas é uma rotação , é preciso observar um biplot de PCA; aí os vetores / raios correspondentes às variáveis originais simplesmente girarão.]
Vamos resumir. Após uma rotação ortogonal (como o varimax), os eixos "rotados principais" não são ortogonais e as projeções ortogonais neles não fazem sentido. Portanto, deve-se abandonar todo esse ponto de vista dos eixos / projeções. Seria estranho ainda chamá-lo de PCA (que tem tudo a ver com projeções com variação máxima etc.).
Do ponto de vista do estilo FA, simplesmente rotacionamos nossos fatores latentes (padronizados e não correlacionados), o que é uma operação válida. Não há "projeções" na FA; em vez disso, fatores latentes geram as variáveis observadas por meio de carregamentos. Essa lógica ainda é preservada. No entanto, começamos com os componentes principais, que na verdade não são fatores (como PCA não é o mesmo que FA). Seria estranho chamá-lo de FA também.
Em vez de debater se alguém "deveria" chamá-lo de PCA ou FA, eu sugeriria ser meticuloso ao especificar o procedimento exato usado: "PCA seguido por uma rotação varimax".
Post Scriptum. Ele é possível considerar um procedimento de rotação alternativo, onde é inserida entre e . Isso alternaria pontuações brutas e vetores próprios (em vez de pontuações e cargas padronizadas). O maior problema com essa abordagem é que, após essa "rotação", as pontuações não serão mais correlacionadas, o que é bastante fatal para a PCA. Um pode fazê-lo, mas não é como as rotações são geralmente sendo entendida e aplicada.TT⊤USV⊤