PCA e análise fatorial exploratória no mesmo conjunto de dados: diferenças e semelhanças; modelo de fator vs PCA

Gostaria de saber se faz algum sentido lógico executar a análise de componentes principais (PCA) e análise fatorial exploratória (EFA) no mesmo conjunto de dados. Ouvi profissionais recomendar expressamente:

Entenda qual é o objetivo da análise e escolha PCA ou EFA para a análise dos dados;
Depois de fazer uma análise, não há necessidade de fazer a outra análise.

Entendo as diferenças motivacionais entre os dois, mas estava me perguntando se há algo errado na interpretação dos resultados fornecidos pelo PCA e pelo EFA ao mesmo tempo?

pca factor-analysis

— user42538
fonte

Por que a insegurança? Se você entende as diferenças motivacionais entre as duas, deve estar em uma das duas posições: considere-as complementares e esteja disposto a explorar as duas. Considere um muito mais convincente para o que você quer fazer. Parece que você quer saber que há uma coisa certa a fazer, mas o PCA com ou contra FA é uma área de controvérsia de longa data que, se dois especialistas concordam, geralmente é apenas que ambos discordam de um terceiro especialista, mas por diferentes razões.

— Nick Cox

O que você está estudando? Algumas ciências sociais parecem felicidade ou dados objetivos, como taxas de juros?

— Aksakal

Ambos os modelos - componente principal e fator comum - são modelos regressivos lineares lineares preditivos semelhantes, prevendo variáveis observadas por variáveis latentes. Vamos centrar as variáveis V1 V2 ... Vp e optamos por extrair 2 componentes / fatores FI e FII . Então o modelo é o sistema de equações:

$V_1 = a_{1I}F_I + a_{1II}F_{II} + E_1$

$V_2 = a_{2I}F_I + a_{2II}F_{II} + E_2$

$...$

$V_p = …$

onde o coeficiente a é uma carga, F é um fator ou um componente e a variável E é resíduos de regressão. Aqui, o modelo de FA difere do modelo de PCA exatamente pelo fato de a FA impor o requisito: variáveis E1 E2 ... Ep (os termos de erro que não estão correlacionados com os Fs ) não devem se correlacionar ( consulte as figuras ). Essas variáveis de erro FA chama "fatores únicos"; suas variações são conhecidas ("singularidades"), mas seus valores casualmente não são. Portanto, as pontuações fatoriais F são computadas apenas como boas aproximações, não são exatas.

(Uma apresentação de álgebra matricial desse modelo de análise de fator comum está na nota rodapé ) $^1$

Enquanto no PCA as variáveis de erro ao prever variáveis diferentes podem se correlacionar livremente: nada lhes é imposto. Eles representam a "escória" pela qual consideramos as dimensões p-2 deixadas de fora . Conhecemos os valores de E e, portanto, podemos calcular as pontuações dos componentes F como valores exatos.

Essa foi a diferença entre o modelo PCA e o modelo FA.

É devido à diferença acima descrita que a FA é capaz de explicar correlações aos pares (covariâncias). O PCA geralmente não pode fazê-lo (a menos que o número de componentes extraídos = p ); só pode explicar a variância multivariada . Portanto, desde que o termo "análise fatorial" seja definido com o objetivo de explicar correlações, o PCA não é uma análise fatorial. Se "Análise fatorial" é definida de maneira mais ampla como um método que fornece ou sugere "características" latentes que podem ser interpretadas, a PCA pode ser vista como uma forma especial e mais simples de análise fatorial. $^2$

Às vezes - em alguns conjuntos de dados sob certas condições - o PCA deixa os termos E que quase não se correlacionam. Então o PCA pode explicar correlações e se tornar como FA. Não é muito incomum com conjuntos de dados com muitas variáveis. Isso levou alguns observadores a afirmar que os resultados do PCA se aproximam dos resultados da FA à medida que os dados aumentam. Não acho que seja uma regra, mas a tendência pode realmente ser. De qualquer forma, dadas as diferenças teóricas, é sempre bom selecionar o método conscientemente. A FA é um modelo mais realista se você deseja reduzir variáveis para latentes, as quais você considerará traços latentes reais que estão por trás das variáveis e as tornam correlatas.

Mas se você tiver outro objetivo - reduzir a dimensionalidade, mantendo as distâncias entre os pontos da nuvem de dados o máximo possível - o PCA é melhor que o FA. (No entanto, o procedimento iterative Multidimensional Scaling (MDS) será ainda melhor. O PCA equivale a MDS métrica nãoiterativa). quanto possível, por poucas dimensões - o PCA é uma escolha ideal.

Modelo de dados de análise fatorial: , onde sãodados analisados (colunas centralizadas ou padronizadas), évalores de fatores comuns (os verdadeiros desconhecidos, não os escores de fatores) com unidade variância, ématriz de cargas factor comum (matriz padrão), évalores do factor únicos (desconhecidos), é ovector do factor único cargas igual ao sq. raiz das singularidades ( ). Parte $^1$ $\mathbf {V=FA'+E}diag \bf(u)$ $\bf V$ n cases x p variables $\bf F$ n x m $\bf A$ p x m $\bf E$ n x p $\bf u$ p $\bf u^2$ pode ser simplesmente rotulado como "E" por simplicidade, como está nas fórmulas que abrem a resposta. $\mathbf E diag \bf(u)$

Principais premissas do modelo:

variáveis e (fatores comuns e únicos, respectivamente) têm média zero e variação unitária; é normalmente considerado normal multivariado, mas em geral, não precisa ser normal multivariado (se ambos forem considerados normais multivariados, também será); $\bf F$ $\bf E$ $\bf E$ $\bf F$ $\bf V$
variáveis não são correlacionadas entre si e não são correlacionadas com asvariáveis $\bf E$ $\bf F$

Resulta domodelo deanálise de fatorescomunsque as cargas demfatores comuns (variáveism<p), também denominadas , devem reproduzir de perto covariâncias (ou correlações) observadas entre as variáveis, . Portanto, se os fatores são ortogonais, oteorema do fatorfundamentalafirma que $^2$ $\bf A$ $\bf A_{(m)}$ $\bf \Sigma$

e, $\bf \hat{\Sigma} = AA'$ $\bf \Sigma \approx \hat{\Sigma} + \it diag \bf (u^2)$

onde é a matriz de covariâncias reproduzido (ou correlações) com variações comuns ( "comunalidades") na sua diagonal; e variações únicas ("singularidades") - que são variações menos comunalidades - são o vetor . A discrepância fora da diagonal ( ) se deve a esses fatores, é um modelo teórico que gera dados e, como tal, é mais simples do que os dados observados nos quais foi construído. As principais causas da discrepância entre as covariâncias observadas e reproduzidas (ou correlações) podem ser: (1) o número de fatores m não é estatisticamente ideal; (2) correlações parciais (estas são $\bf \hat{\Sigma}$ $\bf u^2$ $\approx$ p(p-1)/2fatores que não pertencem a fatores comuns) são pronunciados; (3) comunalidades mal avaliadas, seus valores iniciais foram baixos; (4) os relacionamentos não são lineares, o uso do modelo linear é questionável; (5) o modelo "subtipo" produzido pelo método de extração não é ideal para os dados (consulte sobre diferentes métodos de extração ). Em outras palavras, algumas suposições de dados de FA não são totalmente atendidas.

Quanto ao PCA comum , ele reproduz covariâncias pelas cargas exatamente quando m = p (todos os componentes são usados) e geralmente falha se m < p (apenas alguns primeiros componentes retidos). O teorema de fator para PCA é:

, $\bf \Sigma= AA'_{(p)} = AA'_{(m)} + AA'_{(p-m)}$

portanto, tanto os carregamentos quanto os carregamentos descartados são misturas de comunalidades e singularidades e nenhum dos dois individualmente pode ajudar a restaurar as covariâncias. Quanto mais m estiver perto de p , melhor o PCA restaura as covariâncias, em regra, mas m pequeno (o que geralmente é do nosso interesse) não ajuda. Isso é diferente da FA, que se destina a restaurar as covariâncias com um número ótimo de fatores ideal muito pequeno. Se aproxima da diagonalidade, o PCA se torna FA, com $\bf A_{(m)}$ $\bf A_{(p-m)}$ $\bf AA'_{(p-m)}$ restaurar todas as covariâncias. Ocorre ocasionalmente com o PCA, como já mencionei. Mas o PCA não possui capacidade algorítmica para forçar essa diagonalização. São os algoritmos de FA que fazem isso. $\bf A_{(m)}$

FA, não PCA, é um modelo de geração de dados: pressupõe poucos fatores comuns "verdadeiros" (de número geralmente desconhecido, para que você tente m dentro de um intervalo) que geram valores "verdadeiros" para covariâncias. As covariâncias observadas são as "verdadeiras" + pequeno ruído aleatório. (É devido à diagonalização realizada que deixou o único restaurador de todas as covariâncias, que o ruído acima pode ser pequeno e aleatório.) Tentando ajustar mais fatores do que as quantidades ideais para a tentativa de ajuste excessivo e não necessariamente uma tentativa eficiente de ajuste adequado . $\bf A_{(m)}$

$trace(\bf A'A_{(m)})$

$\bf \Sigma$ $\bf AA'$ $trace(\bf AA')$ $trace(\bf A'A)$ $\bf A'A$

Graças à maximização do traço - a variação explicada por m componentes - o PCA é responsável por covariâncias, uma vez que covariância é variação compartilhada. Nesse sentido, o PCA é uma "aproximação de baixo escalão" de toda a matriz de covariância das variáveis. E, quando vista do ponto de vista das observações, essa aproximação é a aproximação da matriz de observações à distância euclidiana (razão pela qual PCA é MDS métrica chamada "Análise de Coordenadas Principais). Esse fato não deve nos desviar da realidade de que o PCA não modela matriz de covariância (cada covariância), gerada por poucas características latentes vivas imagináveis como transcendentes em relação a nossas variáveis; a aproximação do PCA permanece imanente, mesmo que seja boa: é a simplificação dos dados.

Se você quiser ver os cálculos passo a passo feitos no PCA e no FA, comentados e comparados, consulte aqui .

— ttnphns
fonte

É uma excelente resposta.

— Subhash C. Davar

+1 por me trazer uma nova perspectiva de visualização do PCA. Agora, pelo que entendi, tanto o PCA quanto o FA podem explicar a variação das variáveis observadas, e como o FA determina que os termos de erro para cada variável não devem ser correlacionados, enquanto o PCA não faz esse ditado, o FA pode capturar toda a covariância em as variáveis observadas, mas o PCA falha em fazer isso, porque no PCA os termos de erro também podem conter alguma covariância das variáveis observadas, a menos que usemos todo o PC para representar as variáveis observadas, certo?

— abacate

Exatamente. O PCA não só pode subestimar um valor de covariância (como você provavelmente deve pensar), como também pode superestimá-lo. Em resumo, a1 * a2 <> Cov12, que é um comportamento normal do PCA. Para FA, esse seria o sinal de solução subótima (por exemplo, número errado de fatores extraídos).

— ttnphns

Σ = W W^{⊤} + σ^{2} I

$\Sigma = WW^\top+\sigma^2 I$

Σ = W W^{⊤} + Ψ

$\Sigma = WW^\top+\Psi$

Ψ

$\Psi$

— Ameba diz Reinstate Monica

Σ

$\Sigma$

W W^{'}

$WW'$

W

$W$

Ψ

$\Psi$

σ^{2}

$\sigma^2$

Forneci minha própria conta das semelhanças e diferenças entre o PCA e o FA no seguinte encadeamento: Existe algum bom motivo para usar o PCA em vez do EFA? Além disso, o PCA pode substituir a análise fatorial?

Observe que minha conta é um pouco diferente daquela de @ttnphns (como apresentado na resposta acima). Minha principal alegação é que PCA e FA não são tão diferentes quanto se pensa. Eles podem realmente diferir fortemente quando o número de variáveis é muito baixo, mas tendem a produzir resultados bastante semelhantes quando o número de variáveis ultrapassa uma dúzia. Veja minha resposta [longa!] No tópico vinculado para obter detalhes matemáticos e simulações de Monte Carlo. Para uma versão muito mais concisa do meu argumento, veja aqui: Sob quais condições o PCA e o FA produzem resultados semelhantes?

Aqui, gostaria de responder explicitamente à sua pergunta principal: Há algo de errado em executar o PCA e o FA no mesmo conjunto de dados? Minha resposta para isso é: Não.

Ao executar PCA ou FA, você não está testando nenhuma hipótese. Ambas são técnicas exploratórias usadas para obter uma melhor compreensão dos dados. Então, por que não explorar os dados com duas ferramentas diferentes? De fato, vamos fazer isso!

Exemplo: conjunto de dados do vinho

$n=178$ $p=13$

Análise PCA e FA do conjunto de dados do vinho

— ameba diz Restabelecer Monica
fonte

If the results turn out to be very similar, then you can decide to stick with only one approach. Certo. Quão parecido então? If the results turn out to be very different, then maybe it tells you something about your dataIsso é perfeitamente místico e esotérico.

— ttnphns

Hummm, desculpe se não estava claro. O que eu quis dizer é que, se houver muitas variáveis e o PCA produzir cargas muito diferentes da FA, isso nos diz algo. Talvez as comunalidades sejam muito baixas (isto é, a matriz de correlação é dominada pela diagonal e os elementos fora da diagonal são pequenos). Esta pode ser uma observação interessante. Se, por algum motivo, analisasse o mesmo conjunto de dados com PCA e FA e obtivesse resultados muito diferentes, eu o investigaria mais. Isso faz sentido?

— ameba diz Restabelecer Monica

@ttnphns: Fiz uma atualização com um exemplo elaborado para um conjunto de dados específico. Espero que você goste! Veja também minha resposta (nova) vinculada. É a primeira vez que fiz um biplot de FA, e nossas conversas anteriores me ajudaram muito nisso.

— ameba diz Restabelecer Monica