Uma explicação básica, mas um tipo de meticulosa, da análise PCA vs Fator com a ajuda de gráficos de dispersão, em etapas lógicas. (Agradeço a @amoeba que, em seu comentário à pergunta, me incentivou a postar uma resposta no lugar de fazer links para outros lugares. Portanto, aqui está uma resposta tardia e de lazer.)
PCA como resumo variável (extração de recurso)
Espero que você já tenha entendimento do PCA. Para reviver agora.
V1 1V2uma
P1 = a 11 1V1 1+ a 12V2
P2 = a 21 1V1 1+ a 22V2
Esses coeficientes são cossenos de rotação (= direção cossenos, direções principais) e compreendem o que é chamado de autovetores, enquanto os autovalores da matriz de covariância são as principais variações do componente. No PCA, geralmente descartamos os últimos componentes fracos: assim, resumimos os dados com alguns componentes extraídos primeiro, com pouca perda de informações.
Covariances
V1 V2
V1 1.07652 .73915
V2 .73915 .95534
----PCA----
Eigenvalues %
P1 1.75756 86.500
P2 .27430 13.500
Eigenvectors
P1 P2
V1 .73543 -.67761
V2 .67761 .73543
Com nossos dados plotados, P1 = .73543*V1 + .67761*V2
descartamos os valores do componente P1 (escores) e o componente P2. A variância de P1 é 1.75756
o primeiro valor próprio da matriz de covariância e, portanto, P1 explica 86.5%
a variância total que é igual a(1.07652+.95534) = (1.75756+.27430)
.
PCA como previsão variável (recurso "latente")
P1 1 V1 1V2
V1 1= a 11 1P1 + E1 1
V2= a 12P1 + E2
umaE
V1 1^= a 11 1P1 1V2^= a 12P1 1E1 1= V1 1- V1 1^E2= V2- V2^
Agora, o que é característico do PCA é que, se calcularmos E1 e E2 para cada ponto nos dados e plotarmos essas coordenadas - ou seja, fazer o gráfico de dispersão dos erros, os "dados de erro" da nuvem coincidirão com o componente descartado P2. E sim: a nuvem é plotada na mesma imagem que a nuvem bege - e você vê na verdade o eixo P2 (da Fig.1 ), lado a lado com as pontuações dos componentes P2.
Não é de admirar, você pode dizer. É tão óbvio: no PCA , o (s) componente (s) júnior (is) descartado (s) é o que decompõe (s) com precisão os erros de previsão E, no modelo que explica (restaura) as variáveis originais V pelo (s) recurso (s) latente (s) P1. Os erros E juntos constituem apenas os componentes deixados de fora. Aqui é onde a análise fatorial começa a diferir do PCA.
A idéia de FA comum (recurso latente)
Formalmente, o modelo que prevê variáveis manifestas pelo (s) recurso (s) latente (s) extraído (s) é o mesmo na AF e na APC; [ Eq.3 ]:
V1 1= a1 1F+ E1 1
V2= a2F+ E2
onde F é o fator comum latente extraído dos dados e substituindo o que era P1 na Eq.2 . A diferença no modelo é que, na FA, diferentemente do PCA, é necessário que as variáveis de erro (E1 e E2) não sejam correlacionadas .
umaumaumaumaumaumauma são autovetores.
OK, de volta ao tópico. E1 e E2 não são correlacionados na análise fatorial; portanto, eles devem formar uma nuvem de erros redondos ou elípticos, mas não na diagonal. Enquanto no PCA, sua nuvem formava uma linha reta coincidindo com o P2 na diagonal. Ambas as idéias são demonstradas na foto:
Observe que os erros são redondos (não na diagonal alongada) da nuvem na FA. O fator (latente) na FA é orientado de maneira um pouco diferente, ou seja, não é o primeiro componente principal que é o "latente" no PCA. Na foto, a linha de fator é estranhamente cônica - ficará claro o porquê no final.
Qual é o significado dessa diferença entre PCA e FA? Variáveis correlacionadas, que são vistas na forma elíptica na diagonal da nuvem de dados. P1 desnatou a variação máxima, de modo que a elipse é co-direcionada para P1. Consequentemente, P1 explicou por si só a correlação; mas não explicou adequadamente a quantidade de correlação existente ; procurou explicar a variação nos pontos de dados, não a correlação. Na verdade, ela superestimou a correlação, cujo resultado foi o aparecimento da nuvem diagonal correlacionada de erros que compensa a super-conta. P1 sozinho não pode explicar a força da correlação / covariação de maneira abrangente. O fator F podefaça sozinho; e a condição em que é possível fazê-lo é exatamente onde os erros podem ser forçados a não serem correlacionados. Como a nuvem de erros é redonda, nenhuma correlação - positiva ou negativa - permaneceu após a extração do fator, portanto, foi o fator que analisou tudo.
Como redução da dimensionalidade, o PCA explica a variação, mas explica as correlações de maneira imprecisa. A FA explica correlações, mas não pode contabilizar (pelos fatores comuns) o máximo de variação de dados que o PCA. O (s) fator (es) na FA representam a parte da variabilidade que é a parte correlacional líquida, denominada comunalidade ; e, portanto, os fatores podem ser interpretados como forças / características / traços reais, mas não observáveis, que ocultam "dentro" ou "por trás" das variáveis de entrada para que elas se correlacionem. Porque eles explicam a correlação bem matematicamente. Os principais componentes (poucos primeiros) explicam matematicamente que não tão bem e, portanto, podem ser chamados de "característica latente" (ou tal) apenas em algum momento e provisoriamente .
A multiplicação de cargas é o que explica (restaura) a correlação ou correlação na forma de covariância - se a análise foi baseada na matriz de covariância (como no exemplo) em vez da matriz de correlação. A análise fatorial que eu fiz com os dados gerados a_1=.87352, a_2=.84528
, portanto, o produto a_1*a_2 = .73837
é quase igual à covariância .73915
. Por outro lado, as cargas de PCA foram a1_1=.97497, a1_2=.89832
, a1_1*a1_2 = .87584
superestimando.73915
consideravelmente.
Tendo explicado a principal distinção teórica entre PCA e FA, voltemos aos nossos dados para exemplificar a idéia.
FA: solução aproximada (pontuação dos fatores)
Abaixo está o gráfico de dispersão mostrando os resultados da análise que chamaremos provisoriamente de "análise fatorial subótima", Fig.3 .
A technical detail (you may skip): PAF method used for factor extraction.
Factor scores computed by Regression method.
Variance of the factor scores on the plot was scaled to the true
factor variance (sum of squared loadings).
Veja as partidas da Fig.2 do PCA. A nuvem bege dos erros não é redonda, é diagonalmente elíptica - mas é evidentemente muito mais gorda do que a fina linha diagonal que ocorreu no PCA. Observe também que os conectores de erro (mostrados para alguns pontos) não são mais paralelos (no PCA, eles eram, por definição, paralelos a P2). Além disso, se você observar, por exemplo, os pontos "F" e "E" que estão espelhados simetricamente sobre o eixo F do fator , você encontrará, inesperadamente, as pontuações correspondentes de seus fatores como valores bastante diferentes. Em outras palavras, as pontuações dos fatores não são apenas pontuações dos componentes principais transformadas linearmente: o fator F é encontrado à sua maneira, diferente da maneira P1. E seus eixos não coincidem completamente se mostrados juntos no mesmo gráfico Fig.4 :
Além disso, eles são um pouco diferentemente orientados, F (como lado a lado com as pontuações) é mais curto, ou seja, é responsável por uma variação menor do que a P1. Como observado anteriormente, o fator é responsável apenas pela variabilidade responsável pela correlação de V1 V2, ou seja, a parte da variação total que é suficiente para trazer as variáveis da covariância primitiva 0
para a covariância factual .73915
.
FA: solução ideal (fator verdadeiro)
Uma solução de fator ideal é quando os erros são redondos ou nuvem elíptica não diagonal: E1 e E2 são totalmente não correlacionados . A análise fatorial realmente retorna uma solução ótima. Eu não o mostrei em um gráfico de dispersão simples como os acima. Por que eu fiz? - pois teria sido a coisa mais interessante, afinal.
O motivo é que seria impossível mostrar em um gráfico de dispersão adequadamente o suficiente, mesmo adotando um gráfico 3D. É um ponto bastante interessante teoricamente. Para tornar E1 e E2 completamente sem correlação, parece que todas essas três variáveis, F, E1, E2 devem estar no espaço (plano) definido por V1, V2; e os três devem estar correlacionados entre si . Eu acredito que é possível desenhar um gráfico de dispersão em 5D (e talvez com algum truque - em 4D), mas vivemos no mundo 3D, infelizmente. O fator F deve estar não correlacionado com E1 e E2 (enquanto os dois também não estão correlacionados) porque F é suposto ser a única fonte (limpa) e completa de correlação nos dados observados. A análise fatorial divide a variação total dap
insira variáveis em duas partes não correlacionadas (sem sobreposição): -dimensional, onde os erros são, também chamados de fatores únicos, não correlacionados).parte de comunidade ( m
-dimensional, onde m
os fatores comuns governam) e parte de exclusividade (p
Portanto, perdoe por não mostrar o verdadeiro fator dos nossos dados em um gráfico de dispersão aqui. Pode ser visualizado de forma bastante adequada através de vetores no "espaço sujeito", como feito aqui sem mostrar pontos de dados.
Acima, na seção "A idéia de FA comum (característica latente)", eu exibi o fator (eixo F) como uma cunha, a fim de avisar que o eixo do fator real não se encontra no plano V1 V2. Isso significa que - ao contrário do componente principal P1 - o fator F como eixo não é uma rotação do eixo V1 ou V2 em seu espaço, e F como variável não é uma combinação linear das variáveis V1 e V2. Portanto, F é modelado (extraído das variáveis V1 v2) como se fosse uma variável externa independente, não uma derivação delas. Equações como a Eq.1, de onde o PCA começa, não são aplicáveis para calcular o fator verdadeiro (ideal) na análise fatorial, enquanto as equações formalmente isomórficas Eq.2 e Eq.3são válidos para ambas as análises. Ou seja, no PCA, as variáveis geram componentes e os componentes preveem variáveis; em FA fator (s) gerar / prever variáveis, e não para trás - modelo fator comum conceitualmente assume assim , mesmo que tecnicamente factores são extraídos a partir das variáveis observados.
Não apenas o fator verdadeiro não é uma função das variáveis manifestas, mas os valores do fator verdadeiro não são definidos exclusivamente . Em outras palavras, eles são simplesmente desconhecidos. Tudo isso se deve ao fato de estarmos no espaço analítico 5D excessivo e não no espaço 2D dos dados em nossa casa. Apenas boas aproximações ( existem vários métodos ) para valores reais de fator, chamados de pontuação fatorial , existem para nós. As pontuações dos fatores estão no plano V1 V2, como as pontuações dos componentes principais, são computadas como as funções lineares de V1, V2 também e foram elasque plotei na seção "FA: solução aproximada (pontuação dos fatores)". As pontuações dos componentes principais são valores reais dos componentes; os escores dos fatores são apenas uma aproximação razoável aos valores dos fatores reais indeterminados.
FA: arredondamento do procedimento
uma
Assim, a "solução fatorial" exibida por mim na seção "FA: solução aproximada (pontuação do fator)" foi baseada na carga ideal, ou seja, em fatores reais. Mas as pontuações não foram ótimas, por destino. As pontuações são calculadas para serem uma função linear das variáveis observadas, como as pontuações dos componentes, para que ambas possam ser comparadas em um gráfico de dispersão e eu fiz isso em busca didática para mostrar como uma passagem gradual da ideia de PCA para a ideia de FA.
É preciso ter cuidado ao traçar as mesmas cargas fatoriais biplot com pontuações fatoriais no "espaço de fatores", estar consciente de que cargas pertencem a fatores verdadeiros, enquanto pontuações pertencem a fatores substitutos (veja meus comentários a esta resposta neste tópico).
A rotação de fatores (cargas) ajuda a interpretar os recursos latentes. A rotação de cargas também pode ser feita no PCA se você usar o PCA como se fosse uma análise fatorial (ou seja, consulte o PCA como previsão variável). O PCA tende a convergir em resultados com a AF à medida que o número de variáveis aumenta (veja o tópico extremamente rico em semelhanças e diferenças práticas e conceituais entre os dois métodos). Veja minha lista de diferenças entre PCA e FA no final desta resposta . Os cálculos passo a passo do PCA vs FA no conjunto de dados da íris são encontrados aqui . Existe um número considerável de bons links para as respostas de outros participantes sobre o tópico fora deste tópico; Sinto muito, usei apenas alguns deles na resposta atual.
Veja também uma lista completa das diferenças entre PCA e FA aqui .