Existe algum bom motivo para usar o PCA em vez do EFA? Além disso, o PCA pode substituir a análise fatorial?


73

Em algumas disciplinas, o PCA (análise de componentes principais) é sistematicamente usado sem qualquer justificativa, e PCA e EFA (análise fatorial exploratória) são considerados sinônimos.

Por isso, recentemente usei o PCA para analisar os resultados de um estudo de validação de escala (21 itens na escala Likert de 7 pontos, assumindo a composição de 3 fatores de 7 itens cada) e um revisor me pergunta por que escolhi o PCA em vez do EFA. Eu li sobre as diferenças entre as duas técnicas e parece que o EFA é favorecido contra o PCA na maioria das suas respostas aqui.

Você tem boas razões para o PCA ser uma escolha melhor? Quais benefícios ele poderia oferecer e por que poderia ser uma escolha sábia no meu caso?


11
Ótima pergunta. Costumo discordar da resposta de ttnphns e tentarei fornecer uma visão alternativa ainda hoje.
Ameba diz Reinstate Monica

5
@amoeba Estou torcendo por você com antecedência. O PCA é apenas uma técnica de transformação que pode ser (às vezes, muito) útil. Não há necessidade de demonizá-lo ou atribuí-lo a intenção espúria ou inadequada. Você também pode escoriar um logaritmo.
Nick Cox

4
Não parece que a resposta dos ttnphns demonize o PCA. Para mim, ele parece estar argumentando que o PCA não se baseia na suposição de variáveis ​​latentes que geram seus dados; portanto, se é isso que você está tentando fazer, a FA é uma escolha melhor.
gung - Restabelece Monica

11
FWIW, eu não estava comentando especificamente sobre a resposta de ttphns, mas em comentários e críticas muitas vezes encontro que equivalem a acusações de que o PCA não faz algo para o qual nunca foi destinado ou não é adequado.
Nick Cox

3
@ NeilG: O PCA não é um modelo generativo [probabilístico], porque não inclui um termo de ruído e, portanto, não há nenhuma probabilidade associada a ele. Porém, existe uma generalização probabilística (PPCA) e está intimamente relacionada ao PCA, veja minha resposta aqui.
Ameba diz Reinstate Monica

Respostas:


95

Isenção de responsabilidade: @ttnphns tem muito conhecimento sobre PCA e FA, e eu respeito sua opinião e aprendi muito com muitas de suas excelentes respostas sobre o assunto. No entanto, costumo discordar da resposta dele aqui, bem como de outros (numerosos) posts sobre esse tópico aqui no CV, não apenas o dele; ou melhor, acho que eles têm aplicabilidade limitada.


Eu acho que a diferença entre PCA e FA é superestimada.

Veja o seguinte: ambos os métodos tentam fornecer uma aproximação de baixo escalão de uma dada matriz de covariância (ou correlação). "Classificação baixa" significa que apenas um número limitado (baixo) de fatores latentes ou componentes principais é usado. Se a matriz de covariância dos dados for , os modelos serão:Cn×nC

PCA:CWWPPCA:CWW+σ2IFA:CWW+Ψ

Aqui é uma matriz com colunas (onde é geralmente escolhido como um número pequeno, ), representando componentes ou fatores principais, é uma matriz de identidade e é uma diagonal matriz. Cada método pode ser formulado como encontrar (e o resto), minimizando a [norma da] diferença entre os lados esquerdo e direito. k k k < n k I Ψ WWkkk<nkIΨW

PPCA significa PCA probabilístico , e se você não sabe o que é isso, não importa tanto por enquanto. Eu queria mencionar isso, porque ele se encaixa perfeitamente entre PCA e FA, tendo complexidade de modelo intermediária. Ele também coloca em perspectiva a supostamente grande diferença entre PCA e FA: embora seja um modelo probabilístico (exatamente como FA), na verdade acaba sendo quase equivalente a PCA ( abrange o mesmo subespaço).W

Mais importante ainda, notar que os modelos diferem apenas na forma como eles tratam a diagonal de . À medida que a dimensionalidade aumenta, a diagonal se torna cada vez menos importante (porque existem apenas elementos na diagonal e fora da diagonal). Como resultado, para o grande , geralmente não há muita diferença entre PCA e FA, uma observação que raramente é apreciada. Para pequenos eles podem realmente diferir bastante. n n n ( n - 1 ) / 2 = O ( n 2 ) n nCnnn(n1)/2=O(n2)nn

Agora, para responder à sua pergunta principal, sobre por que as pessoas em algumas disciplinas parecem preferir o PCA. Eu acho que tudo se resume ao fato de que é matematicamente muito mais fácil que o FA (isso não é óbvio nas fórmulas acima, então você precisa acreditar em mim aqui):

  1. O PCA - assim como o PPCA, que é apenas ligeiramente diferente -, possui uma solução analítica, enquanto a FA não. Portanto, a FA precisa ser numericamente ajustada, existem vários algoritmos para fazê-lo, dando possíveis respostas diferentes e operando sob diferentes suposições, etc. etc. Para o PCA, você executa uma decomposição do próprio e pronto; FA é muito mais confusa.

    Tecnicamente, o PCA simplesmente gira as variáveis, e é por isso que podemos nos referir a ela como uma mera transformação, como o @NickCox fez em seu comentário acima.

  2. A solução PCA não depende de : você pode encontrar os três primeiros PCs ( ) e os dois primeiros serão idênticos aos que você encontraria se configurasse inicialmente . Isso não é verdade para FA: a solução para não está necessariamente contida na solução para . Isso é contra-intuitivo e confuso.k = 3 k = 2 k = 2 k = 3kk=3k=2k=2k=3

É claro que o FA é um modelo mais flexível que o PCA (afinal, ele tem mais parâmetros) e pode ser mais útil. Eu não estou argumentando contra isso. O que estou argumentando é a alegação de que eles são conceitualmente muito diferentes, pois o PCA é sobre "descrever os dados" e o FA é sobre "encontrar variáveis ​​latentes". Eu simplesmente não vejo isso como verdade [quase].

Para comentar sobre alguns pontos específicos mencionados acima e nas respostas vinculadas:

  • "no PCA, o número de dimensões a serem extraídas / retidas é fundamentalmente subjetivo, enquanto no EFA o número é fixo, e você geralmente precisa verificar várias soluções" - bem, a escolha da solução ainda é subjetiva, então não veja qualquer diferença conceitual aqui. Nos dois casos, é (subjetiva ou objetivamente) escolhido para otimizar a troca entre ajuste e complexidade do modelo.k

  • "A FA é capaz de explicar correlações aos pares (covariâncias). O PCA geralmente não pode fazê-lo" - na verdade, os dois explicam cada vez melhor as correlações à medida que cresce.k

  • Às vezes, surge uma confusão extra (mas não nas respostas de @ ttnphns!) Devido às diferentes práticas nas disciplinas que usam PCA e FA. Por exemplo, é uma prática comum alternar fatores na FA para melhorar a interpretabilidade. Isso raramente é feito após o PCA, mas em princípio nada o impede. Portanto, as pessoas costumam pensar que a FA fornece algo "interpretável" e o PCA não, mas isso geralmente é uma ilusão.

Finalmente, deixe-me enfatizar novamente que, para muito pequeno, as diferenças entre PCA e FA podem realmente ser grandes, e talvez algumas das reivindicações a favor da FA sejam feitas com pequeno em mente. Como exemplo extremo, para um único fator sempre pode explicar perfeitamente a correlação, mas um PC pode falhar em fazer isso muito mal.n n = 2nnn=2


Atualização 1: modelos generativos dos dados

Você pode ver pelo número de comentários que o que estou dizendo é considerado controverso. Correndo o risco de inundar a seção de comentários ainda mais, aqui estão algumas observações sobre "modelos" (veja comentários de @ttnphns e @gung). @ttnphns não gosta que eu usei a palavra "modelo" [da matriz de covariância] para me referir às aproximações acima; é uma questão de terminologia, mas o que ele chama de "modelos" são modelos probabilísticos / generativos dos dados :

PPCA:x=Wz+μ+ϵ,ϵN(0,σ2I)FA:x=Wz+μ+ϵ,ϵN(0,Ψ)

Observe que o PCA não é um modelo probabilístico e não pode ser formulado dessa maneira.

A diferença entre PPCA e FA está no termo de ruído: PPCA assume a mesma variação de ruído para cada variável, enquanto FA assume diferentes variações ("singularidades"). Essa pequena diferença tem consequências importantes. Ambos os modelos podem ser ajustados com um algoritmo geral de maximização de expectativa. Para FA, nenhuma solução analítica é conhecida, mas, para PPCA, é possível derivar analiticamente a solução para a qual o EM convergirá ( e ). Acontece que possui colunas na mesma direção, mas com um comprimento menor do que as cargas padrão do PCA (omito fórmulas exatas). Por esse motivo, penso no PPCA como "quase" PCA:Ψ i i σ 2 W W P P C A W P C A Wσ2Ψiiσ2WWPPCAWPCAW nos dois casos abrange o mesmo "subespaço principal".

A prova ( Tipping e Bishop, 1999 ) é um pouco técnica; a razão intuitiva pela qual a variação de ruído homogênea leva a uma solução muito mais simples é que os mesmos vetores próprios de para qualquer valor de , mas isso não é verdade para .C σ 2 C - ΨCσ2ICσ2CΨ

Então, sim, @gung e @ttnphns estão certos, pois a FA é baseada em um modelo generativo e o PCA não, mas acho importante acrescentar que o PPCA também é baseado em um modelo generativo, mas é "quase" equivalente ao PCA . Então deixa de parecer uma diferença tão importante.


Atualização 2: como o PCA fornece a melhor aproximação à matriz de covariância, quando é conhecido por estar procurando a variação máxima?

O PCA possui duas formulações equivalentes: por exemplo, o primeiro PC é (a) o que maximiza a variação da projeção e (b) o que fornece um erro mínimo de reconstrução. Mais abstratamente, a equivalência entre maximizar a variância e minimizar o erro de reconstrução pode ser vista usando o teorema de Eckart-Young .

Se é a matriz de dados (com observações como linhas, variáveis ​​como colunas e colunas são consideradas centradas) e sua decomposição SVD é , então é sabido que as colunas de são autovetores da matriz de dispersão (ou matriz de covariância, se divididas pelo número de observações) e, portanto, são eixos maximizando a variação (isto é, eixos principais). Mas pelo teorema Eckart-Young, primeiros PCs proporcionar o melhor rank- aproximação para :X = U S VV C = XX = V S 2 V k kXX=USVVC=XX=VS2VkkXXk=UkSkVk(essa notação significa obter apenas maiores valores / vetores singulares) minimiza .kXXk2

Os primeiros PCs proporcionar não só o melhor rank- aproximação para , mas também para a matriz de covariância . De fato, , e a última equação fornece a decomposição SVD de (porque é ortogonal e é diagonal). Então o teorema Eckert-Young diz-nos que o melhor rank aproximação é dada por . Isso pode ser transformado ao perceber quekkXCC=XX=VS2VCVS2kCCk=VkSk2VkW=VS são carregamentos de PCA, então

Ck=VkSk2Vk=(VS)k(VS)k=WkWk.

A linha inferior aqui é que como declarado no começo.

minimizing{CWW2CWWσ2I2CWWΨ2}leadsto{PCAPPCAFA}loadings,

Atualização 3: demonstração numérica de que PCA FA quandon

Fui encorajado pelo @ttnphns a fornecer uma demonstração numérica da minha afirmação de que, à medida que a dimensionalidade cresce, a solução PCA se aproxima da solução FA. Aqui vai.

Eu criei uma matriz de correlação aleatória com algumas correlações fora da diagonal fortes. Peguei o bloco quadrado superior esquerdo dessa matriz com variáveis ​​para investigar o efeito da dimensionalidade. Para cada , executei PCA e FA com número de componentes / fatores e, para cada , calculei o erro de reconstrução fora da diagonal (observe que na diagonal, FA reconstrói perfeitamente, devido ao200×200 n×nCn=25,50,200nk=15k

ij[CWW]ij2
CΨenquanto o PCA não; mas a diagonal é ignorada aqui). Depois, para cada e , calculei a razão entre o erro fora da diagonal do PCA e o erro fora da diagonal do FA. Essa relação deve estar acima de , porque a FA fornece a melhor reconstrução possível.nk1

Erro de reconstrução fora da diagonal PCA vs FA

À direita, linhas diferentes correspondem a valores diferentes de , e é mostrado no eixo horizontal. Observe que à medida que cresce, as proporções (para todos ) se aproximam de , significando que PCA e FA produzem aproximadamente as mesmas cargas, PCA FA. Com relativamente pequeno , por exemplo, quando , o PCA tem um desempenho [esperado] pior, mas a diferença não é tão forte para pequeno , e mesmo para a razão é inferior a .knnk1nn=25kk=51.2

A razão pode se tornar grande quando o número de fatores se torna comparável ao número de variáveis . No exemplo que dei acima com e , a FA atinge erro de reconstrução, enquanto a PCA não, ou seja, a razão seria infinita. Voltando à pergunta original, quando e , APC apenas moderadamente perder a FA na explicação da parte de fora da diagonal .knn=2k=10n=21k=3C

Para um exemplo ilustrado de PCA e FA aplicado a um conjunto de dados real (conjunto de dados de vinho com ), consulte minhas respostas aqui:n=13


2
Eu estava prestes a fazer uma pergunta sobre a diferença matemática entre as técnicas, pois a maioria das respostas (de outra maneira excelentes) sobre o tópico aqui não faz comparações matemáticas explícitas. Esta resposta é exatamente o que eu estava procurando.
shadowtalker

2
Essa é uma conta altamente valiosa e desdobrada, com nova perspectiva. A colocação do PPCA como uma técnica intermediária é crucial - é de onde sua opinião cresce. Posso pedir-lhe para deixar mais linhas sobre o PPCA? - O que é , como é estimado (brevemente) e o que o diferencia de para que os CPP (fatores diferentes) preencham o subespaço das variáveis ​​e um CPP não dependa de . σ2Ψk
ttnphns

3
Eu continuo concordando com w / ttnphns aqui e com a distinção de que a FA é baseada em variáveis ​​latentes, enquanto o PCA é apenas uma transformação dos dados. No entanto, isso é muito bem fundamentado e uma posição contrária útil. Contribui para a qualidade desse segmento. +1
gung - Restabelecer Monica

5
@amoeba SUA RESPOSTA É GRANDE. É tão claro e gratificante. Obrigado por compartilhar sua visão.
Subhash C. Davar

2
@ user795305 Desculpas, esqueci de responder. O modelo de FA escrito na Atualização 1 está correto. De fato, o latente deve ser de e independente de . A solução de ML para e NÃO está realmente minimizando a norma de como escrevi na atualização 2; isso foi desleixado e incorreto. Eu deveria consertar isso, obrigado. No entanto, acho que não há problema em dizer que a solução ML é tal que ; é que a função de perda aqui não é a norma da diferença, mas uma expressão mais complicada (probabilidade de dada ). zN(0,I)ϵWΨCWWΨCWW+ΨCWW+Ψ
ameba diz Restabelecer Monica

27

Como você disse, você está familiarizado com respostas relevantes ; veja também : So, as long as "Factor analysis..."+ alguns últimos parágrafos; e a lista inferior aqui . Em resumo, o PCA é principalmente uma técnica de redução de dados, enquanto a FA é uma técnica de modelagem de características latentes. Às vezes eles dão resultados semelhantes; mas no seu caso - porque você provavelmente deseja construir / validar traços latentes como se fossem entidades reais - usar o FA seria mais honesto e você não deve preferir o PCA na esperança de que seus resultados converjam. Por outro lado, sempre que você pretender resumir / simplificar os dados - para análises subsequentes, por exemplo -, você prefere o PCA, pois ele não impõe nenhum modelo forte (que pode ser irrelevante) aos dados.

Para reiterar de outra maneira, o PCA fornece dimensões que podem corresponder a algumas construções subjetivamente significativas , se você desejar, enquanto o EFA afirma que esses são recursos ocultos que realmente geraram seus dados e visa encontrá-los. Na AF, a interpretação das dimensões (fatores) está pendente - se você pode anexar um significado a uma variável latente ou não, ela "existe" (a AF é essencialista); caso contrário, você deve removê-lo do modelo ou obter mais dados para suportar isto. No PCA, o significado de uma dimensão é opcional.

E mais uma vez em outras palavras: Quando você extrai m fatores (separa fatores de erros), esses poucos fatores explicam (quase) toda a correlação entre variáveis, de modo que as variáveis ​​não têm espaço para correlacionar os erros de qualquer maneira. Portanto, desde que "fatores" sejam definidos como traços latentes que geram / vinculam os dados correlatos, você tem pistas completas para interpretar isso - o que é responsável pelas correlações. No PCA (extrair componentes como se "fatores"), os erros (podem) ainda se correlacionam entre as variáveis; portanto, você não pode afirmar que extraiu algo suficientemente limpo e exaustivo para ser interpretado dessa maneira.

Você pode ler minha outra resposta mais longa na discussão atual, para obter alguns detalhes teóricos e de experimentos de simulação sobre se o PCA é um substituto viável da FA. Preste atenção também às respostas pendentes de @amoeba fornecidas neste tópico.


Upd : Em sua resposta a esta pergunta, @amoeba, que se opôs a ela, introduziu uma técnica (não conhecida) PPCA como estando entre a PCA e a FA. Isso naturalmente lançou a lógica de que PCA e FA estão ao longo de uma linha, e não o oposto. Essa abordagem valiosa expande os horizontes teóricos. Mas pode mascarar a importante diferença prática sobre a FA reconstruir (explica) todas as covariâncias aos pares com alguns fatores, enquanto a PCA não pode fazê-lo com sucesso (e quando o faz ocasionalmente - é porque aconteceu com a FA).


Obrigado pela sua resposta! Na verdade, os resultados da FA convergem principalmente com o obtido através do PCA. A única coisa é: os autores do estudo inicial (o meu é uma tradução + validação) usaram uma análise PCA. Isso é suficiente para manter a análise do PCA em meu artigo e talvez para adicionar uma frase explicando que os resultados da FA convergem, ou devo substituir a PCA pela FA? Observe que o revisor, na verdade, não nos pede explicitamente para fazê-lo, ele está apenas pedindo para justificar por que escolhemos um PCA em vez de FA.
Carine

Penso: se os autores usaram o PCA, mas uma abordagem mais rigorosa / honesta pede a EPT, no caso deles, você deve deixar cair uma linha de crítica e, em seguida, executar o PCA ou o PCA e o EPT, para comparar os resultados.
precisa saber é o seguinte

2
Observe também a diferença de que no PCA o número de dimensões a extrair / reter é fundamentalmente subjetivo, enquanto no EFA o número é fixo, e você geralmente precisa verificar várias soluções, por exemplo, 3 a 5 fatores, para o grau de como elas reproduzir matriz de correlação e quão bem eles são interpretáveis. A FA é mais tediosa, é por isso que as pessoas geralmente preferem fazer PCA naqueles casos em que uma abordagem consciente requer um número de passes de EPT.
precisa saber é o seguinte

Consulte também a entrada da Wikipedia: en.wikipedia.org/wiki/…
RobertF 7/14

15

Nesta minha resposta (um segundo e mais um do meu aqui), tentarei mostrar nas figuras que o PCA não restaura bem uma covariância (ao passo que restaura - maximiza - a variação de maneira ideal).

Como em várias das minhas respostas na análise PCA ou Fator, voltarei à representação vetorial de variáveis ​​no espaço de assunto . Nesse caso, é apenas um gráfico de carregamento mostrando variáveis ​​e seus carregamentos de componentes. Então, obtivemos e as variáveis ​​(tínhamos apenas duas no conjunto de dados), , seu primeiro componente principal, com as cargas e . O ângulo entre as variáveis ​​também é marcado. As variáveis ​​foram preliminares centralizadas, portanto, seus comprimentos ao quadrado, e são suas respectivas variações.X1X2Fa1a2h12h22

insira a descrição da imagem aqui

A covariância entre e é - é seu produto escalar - (esse cosseno é o valor de correlação, por sinal). Obviamente, cargas de PCA capturam o máximo possível da variação geral por , a variação do componenteX1X2h1h2cosϕh12+h22a12+a22F

Agora, a covariância , em que é a projeção da variável na variável (a projeção que é a previsão de regressão da primeira pela segunda). E assim, a magnitude da covariância pode ser representada pela área do retângulo abaixo (com os lados e ).h1h2cosϕ=g1h2g1X1X2g1h2

insira a descrição da imagem aqui

De acordo com o chamado "teorema do fator" (pode saber se você lê alguma coisa na análise fatorial), a covariância (s) entre variáveis ​​deve ser (de perto, se não exatamente) reproduzida pela multiplicação de cargas das variáveis ​​latentes extraídas ( leia ). Isto é, por, , em nosso caso particular (se reconhecer o componente principal como nossa variável latente). Esse valor da covariância reproduzida pode ser renderizado pela área de um retângulo com os lados e . Vamos desenhar o retângulo, alinhado pelo retângulo anterior, para comparar. Esse retângulo é mostrado hachurado abaixo e sua área é apelidada de cov * ( cov reproduzido ).a1a2a1a2

insira a descrição da imagem aqui

É óbvio que as duas áreas são bastante diferentes, com a cov * sendo consideravelmente maior em nosso exemplo. A covariância foi superestimada pelas cargas de , o primeiro componente principal. Isso é contrário a alguém que possa esperar que o PCA, apenas pelo 1º componente dos dois possíveis, restaure o valor observado da covariância.F

O que poderíamos fazer com o nosso enredo para melhorar a reprodução? Podemos, por exemplo, girar o feixe um pouco no sentido horário, até que ele se sobreponha a . Quando suas linhas coincidem, isso significa que a ser nossa variável latente. O carregamento de (projeção de nele) será e o carregamento de (projeção de nele) será . Então dois retângulos são iguais - o que foi rotulado como cov , e assim a covariância é reproduzida perfeitamente. No entanto, , a variação explicada pela nova "variável latente", é menor queFX2X2a2X2h2a1X1g1g12+h22a12+a22 , a variação explicada pela antiga variável latente, o primeiro componente principal (calcule o quadrado e empilhe os lados de cada um dos dois retângulos da figura, para comparar). Parece que conseguimos reproduzir a covariância, mas à custa de explicar a quantidade de variação. Ou seja, selecionando outro eixo latente em vez do primeiro componente principal.

Nossa imaginação ou palpite pode sugerir (não irei e possivelmente não posso provar isso pela matemática, não sou um matemático) que se liberarmos o eixo latente do espaço definido por e , o avião, permitindo que ele balance um um pouco em nossa direção, podemos encontrar uma posição ideal - chame-a, digamos, - em que a covariância é novamente reproduzida perfeitamente pelas cargas emergentes ( ) enquanto a variação explica ( ) será maior do que , embora não tão grande quanto do componente principal .X1X2Fa1a2a12+a22g12+h22a12+a22F

Acredito que essa condição é possível, principalmente nesse caso quando o eixo latente é desenhado estendendo-se para fora do plano de forma a puxar um "capô" de dois planos ortogonais derivados, um contendo o eixo e e o outro contendo o eixo e . Então, esse eixo latente chamaremos de fator comum e toda a nossa "tentativa de originalidade" será denominada análise fatorial .FX1X2


Uma resposta à "Atualização 2" de @ amoeba em relação ao PCA.

@amoeba é correto e relevante para relembrar o teorema de Eckart-Young, que é fundamental para o PCA e suas técnicas congenéricas (PCoA, biplot, análise de correspondência) com base em SVD ou decomposição de autogênio. Segundo ele, primeiros eixos principais de minimizam otimamente - uma quantidade igual a , - assim como . Aqui representa os dados reproduzidos pelos eixos principais. se que é igual a , com sendo os carregamentos variáveis dekX||XXk||2tr(XX)tr(XkXk)||XXXkXk||2XkkXkXkWkWkWkk componentes.

Isso significa que a minimização permanece verdadeira se considerarmos apenas porções fora da diagonal de ambas as matrizes simétricas? Vamos inspecionar experimentando.||XXXkXk||2

500 10x6matrizes aleatórias foram geradas (distribuição uniforme). Para cada um, após centralizar suas colunas, foi realizada a PCA e duas matrizes de dados reconstruídas computadas: uma como reconstruída pelos componentes 1 a 3 ( primeiro, como é habitual na PCA) e a outra como reconstruída pelos componentes 1, 2 e 4 (ou seja, o componente 3 foi substituído por um componente 4 mais fraco). O erro de reconstrução (soma da diferença ao quadrado = distância euclidiana ao quadrado) foi então calculado para um , para o outro . Esses dois valores são um par para mostrar em um gráfico de dispersão.XXkk||XXXkXk||2XkXk

O erro de reconstrução foi calculado cada vez em duas versões: (a) matrizes inteiras e comparadas; (b) apenas fora das diagonais das duas matrizes comparadas. Assim, temos dois gráficos de dispersão, com 500 pontos cada.XXXkXk

insira a descrição da imagem aqui

Vemos que no gráfico "matriz inteira" todos os pontos estão acima da y=xlinha. O que significa que a reconstrução para toda a matriz de produto escalar é sempre mais precisa com "1 a 3 componentes" do que com "1, 2, 4 componentes". Isso está de acordo com o teorema de Eckart-Young: os primeiros componentes principais são os melhores adaptadores.k

No entanto, quando analisamos a plotagem "fora das diagonais apenas", notamos vários pontos abaixo da y=xlinha. Parecia que às vezes a reconstrução de porções fora da diagonal por "1 a 3 componentes" era pior do que por "1, 2, 4 componentes". O que leva automaticamente à conclusão de que os primeiros componentes principais não são regularmente os melhores instaladores de produtos escalares fora da diagonal entre os instaladores disponíveis no PCA. Por exemplo, pegar um componente mais fraco em vez de um mais forte às vezes pode melhorar a reconstrução.k

Portanto, mesmo no domínio do PCA , os principais componentes principais - que aproximam a variação geral, como sabemos, e até toda a matriz de covariância também - não necessariamente aproximam as covariâncias fora da diagonal . Melhor otimização desses é necessária, portanto; e sabemos que a análise fatorial é a (ou entre) a técnica que pode oferecê-la.


Seguimento da "Atualização 3" da @ amoeba: O PCA aborda a FA à medida que o número de variáveis ​​cresce? O PCA é um substituto válido da FA?

Eu conduzi uma treliça de estudos de simulação. Um pequeno número de estruturas de fatores populacionais, matrizes de carga foram construídas com números aleatórios e convertidas em suas matrizes de covariância populacional correspondentes como , sendo um ruído diagonal (exclusivo variações). Essas matrizes de covariância foram feitas com todas as variâncias 1, portanto, eram iguais às matrizes de correlação.AR=AA+U2U2

Dois tipos de estrutura fatorial foram projetados - nítidos e difusos . Estrutura afiada é aquela que possui uma estrutura simples e clara: as cargas são "altas" ou "baixas", sem intermediárias; e (no meu design) cada variável é altamente carregada exatamente por um fator. Bf correspondente é, portanto, notavelmente semelhante a um bloco. A estrutura difusa não diferencia entre cargas altas e baixas: elas podem ser qualquer valor aleatório dentro de um limite; e nenhum padrão dentro das cargas é concebido. Conseqüentemente, correspondente fica mais suave. Exemplos de matrizes populacionais:RR

insira a descrição da imagem aqui

O número de fatores foi ou . O número de variáveis ​​foi determinado pela razão k = número de variáveis ​​por fator ; k executou valores no estudo.264,7,10,13,16

Para cada uma das poucas populações construídas , foram geradas realizações aleatórias da distribuição Wishart (abaixo do tamanho da amostra ). Essas foram matrizes de covariância amostral . Cada um foi analisado por fator por FA (por extração do eixo principal) e por PCA . Além disso, cada uma dessas matrizes de covariância foi convertida na matriz de correlação amostral correspondente , que também foi analisada fatorialmente (fatorada) da mesma maneira. Por fim, também realizei a fatoração da própria matriz "covariância" de covariância populacional (= correlação). A medida de Kaiser-Meyer-Olkin da adequação da amostra foi sempre acima de 0,7.R50n=200

Para dados com 2 fatores, as análises extraíram 2 e também 1 e 3 fatores ("subestimação" e "superestimação" do número correto de regimes de fatores). Para dados com 6 fatores, as análises também extraíram 6 e também 4 e 8 fatores.

O objetivo do estudo foram as qualidades de restauração de covariâncias / correlações de FA vs PCA. Portanto, foram obtidos resíduos de elementos fora da diagonal. Registrei resíduos entre os elementos reproduzidos e os elementos da matriz populacional, bem como resíduos entre o primeiro e os elementos da matriz da amostra analisada. Os resíduos do 1º tipo foram conceitualmente mais interessantes.

Os resultados obtidos após análises realizadas na covariância da amostra e nas matrizes de correlação da amostra apresentaram algumas diferenças, mas todos os principais achados foram semelhantes. Portanto, estou discutindo (mostrando resultados) apenas as análises "modo de correlações".

1. Ajuste fora da diagonal geral por PCA vs FA

Os gráficos abaixo plotam, em relação a vários números de fatores e k diferentes, a razão entre o resíduo médio fora da diagonal ao quadrado produzido em PCA e a mesma quantidade produzida em FA . Isso é semelhante ao que o @amoeba mostrou na "Atualização 3". As linhas no gráfico representam tendências médias nas 50 simulações (eu omito mostrar barras de erro nelas).

(Nota: os resultados são sobre fatoração de matrizes de correlação de amostra aleatória , não sobre fatoração da matriz populacional parental para elas: é tolice comparar PCA com FA e quão bem elas explicam uma matriz populacional - a FA sempre vencerá e se o se o número correto de fatores for extraído, seus resíduos serão quase zero e, portanto, a proporção se aproximará do infinito.)

insira a descrição da imagem aqui

Comentando esses gráficos:

  • Tendência geral: à medida que k (número de variáveis ​​por fator) cresce, a taxa de sub-conjunto geral de PCA / FA diminui para 1. Ou seja, com mais variáveis, o PCA aborda FA na explicação de correlações / covariâncias fora da diagonal. (Documentado por @amoeba em sua resposta.) Presumivelmente, a lei que aproxima as curvas é ratio = exp (b0 + b1 / k) com b0 próximo a 0.
  • A proporção é maior de resíduos errados “amostra menos amostra reproduzida” (plot à esquerda) do que resíduos residuais errados “população menos amostra reproduzida” (plot à direita). Ou seja (trivialmente), o PCA é inferior ao FA ao ajustar a matriz que está sendo analisada imediatamente. No entanto, as linhas na plotagem esquerda têm uma taxa de diminuição mais rápida; portanto, por k = 16, a proporção também é inferior a 2, como está na plotagem correta.
  • Com os resíduos “população menos amostra reproduzida”, as tendências nem sempre são convexas ou mesmo monotônicas (os cotovelos incomuns são mostrados circulados). Portanto, desde que a fala explique uma matriz populacional de coeficientes via fatoração de uma amostra, aumentar o número de variáveis ​​não aproxima regularmente o PCA da AF em sua qualidade de fittinq, embora a tendência esteja presente.
  • A proporção é maior para m = 2 fatores do que para m = 6 fatores na população (as linhas vermelhas em negrito estão abaixo das linhas verdes em negrito). O que significa que, com mais fatores atuando nos dados, o PCA alcança a FA com mais rapidez. Por exemplo, no gráfico à direita k = 4 produz uma razão de 1,7 para 6 fatores, enquanto o mesmo valor para 2 fatores é atingido em k = 7.
  • A proporção é maior se extrairmos mais fatores em relação ao número real de fatores. Ou seja, o PCA é apenas um pouco pior do que o FA se, na extração, subestimamos o número de fatores; e perde mais se o número de fatores estiver correto ou superestimado (compare linhas finas com linhas em negrito).
  • Há um efeito interessante da nitidez da estrutura fatorial, que aparece apenas se considerarmos os resíduos "população menos amostra reproduzida": compare gráficos cinza e amarelo à direita. Se os fatores populacionais carregam variáveis ​​de forma difusa, as linhas vermelhas (m = 6 fatores) afundam no fundo. Ou seja, na estrutura difusa (como carregamentos de números caóticos), a PCA (realizada em uma amostra) é apenas pior do que a AF na reconstrução das correlações populacionais - mesmo sob k pequeno, desde que o número de fatores na população não seja muito pequeno. Essa é provavelmente a condição em que o PCA está mais próximo da FA e é mais garantido como seu substituto. Enquanto na presença de uma estrutura fatorial acentuada, o PCA não é tão otimista em reconstruir as correlações populacionais (ou covariâncias): ele aborda a FA apenas na grande perspectiva k.

2. Ajuste no nível do elemento por PCA vs FA: distribuição de resíduos

Para cada experimento de simulação em que foi realizado o fatoração (por PCA ou FA) de 50 matrizes aleatórias da matriz populacional, foi obtida a distribuição dos resíduos "correlação populacional menos correlação da amostra reproduzida (pela fatoração)" para cada elemento de correlação fora da diagonal. As distribuições seguiram padrões claros, e exemplos de distribuições típicas são mostrados logo abaixo. Os resultados após o fatoração PCA são do lado esquerdo azul e os resultados após o fatoração FA são verdes do lado direito.

insira a descrição da imagem aqui

A principal descoberta é que

  • Pronunciadas, por magnitude absoluta, as correlações populacionais são restauradas pelo PCA de maneira inadequada: os valores reproduzidos são superestimados por magnitude.
  • Mas o viés desaparece à medida que k (razão número de variáveis ​​para número de fatores) aumenta. Na foto, quando há apenas k = 4 variáveis ​​por fator, os resíduos do PCA se espalham em deslocamento de 0. Isso é visto quando existem 2 fatores e 6 fatores. Mas com k = 16 o deslocamento quase não é visto - quase desapareceu e o ajuste PCA se aproxima do ajuste FA. Não é observada diferença na dispersão (variação) dos resíduos entre PCA e FA.

Quadro semelhante é visto também quando o número de fatores extraídos não corresponde ao número real de fatores: apenas a variação dos resíduos muda um pouco.

As distribuições mostradas acima em fundo cinza referem-se aos experimentos com estrutura fatorial nítida (simples) presente na população. Quando todas as análises foram feitas em situação de estrutura fatorial difusa da população, verificou-se que o viés da PCA desaparece não apenas com o aumento de k, mas também com o aumento de m (número de fatores). Consulte os anexos de fundo amarelo reduzidos na coluna "6 fatores, k = 4": quase não há deslocamento de 0 observado para os resultados do PCA (o deslocamento ainda está presente com m = 2, que não é mostrado na foto )

Pensando que as descobertas descritas são importantes, decidi inspecionar essas distribuições residuais mais profundamente e plotamos os gráficos de dispersão dos resíduos (eixo Y) em relação ao valor do elemento (correlação populacional) (eixo X). Esses gráficos de dispersão combinam resultados de todas as (50) simulações / análises. A linha de ajuste LOESS (50% de pontos locais a serem usados, kernel Epanechnikov) é destacada. O primeiro conjunto de gráficos é para o caso de uma estrutura fatorial acentuada na população (a trimodalidade dos valores de correlação é aparente, portanto):

insira a descrição da imagem aqui

Comentando:

  • Vemos claramente o viés de reconstituição (descrito acima), que é característico do PCA como a linha de tendência negativa e enviesada: grandes em correlações populacionais de valor absoluto são superestimadas pelo PCA dos conjuntos de dados de amostra. FA é imparcial (loess horizontal).
  • À medida que k cresce, o viés da PCA diminui.
  • O PCA é tendencioso, independentemente de quantos fatores existem na população: com 6 fatores existentes (e 6 extraídos nas análises), é igualmente defeituoso como com 2 fatores existentes (2 extraídos).

O segundo conjunto de parcelas abaixo é para o caso da estrutura fatorial difusa na população:

insira a descrição da imagem aqui

Novamente, observamos o viés do PCA. No entanto, ao contrário do caso da estrutura fatorial acentuada, o viés diminui à medida que o número de fatores aumenta: com 6 fatores populacionais, a linha de loess do PCA não está muito longe de ser horizontal, mesmo com apenas k 4. É o que expressamos por " histogramas amarelos "anteriormente.

Um fenômeno interessante nos dois conjuntos de gráficos de dispersão é que as linhas de loess para o PCA são curvas em S. Essa curvatura é exibida sob outras estruturas fatoriais da população (cargas) construídas aleatoriamente por mim (verifiquei), embora seu grau varie e geralmente seja fraco. Se segue da forma S, então o PCA começa a distorcer as correlações rapidamente, à medida que saltam de 0 (especialmente sob k pequeno), mas a partir de algum valor - em torno de 0,30 ou 0,40 - ele se estabiliza. Neste momento, não vou especular por uma possível razão desse comportamento, apesar de acreditar que o "senoide" deriva da natureza triginométrica da correlação.

Fit by PCA vs FA: Conclusões

Como o ajustador geral da porção fora da diagonal de uma matriz de correlação / covariância, o PCA - quando aplicado para analisar uma matriz de amostra de uma população - pode ser um bom substituto para a análise fatorial. Isso acontece quando o número da razão de variáveis ​​/ número de fatores esperados é grande o suficiente. (A razão geométrica para o efeito benéfico da proporção é explicada na nota de rodapé inferior ) Com mais fatores existentes, a proporção pode ser menor do que com apenas alguns fatores. A presença de uma estrutura fatorial acentuada (existe uma estrutura simples na população) dificulta a PCA para abordar a qualidade da AF.1

O efeito da estrutura fatorial acentuada na capacidade de ajuste geral da PCA é aparente apenas enquanto os resíduos "população menos amostra reproduzida" são considerados. Portanto, pode-se deixar de reconhecê-lo fora de um cenário de estudo de simulação - em um estudo observacional de uma amostra, não temos acesso a esses resíduos importantes.

Diferentemente da análise fatorial, o PCA é um estimador (positivamente) tendencioso da magnitude das correlações populacionais (ou covariâncias) que estão longe de zero. A parcialidade do PCA, no entanto, diminui à medida que o número de variáveis ​​/ número de fatores esperados aumenta. O viés também diminui à medida que o número de fatores na população cresce, mas essa última tendência é prejudicada por uma forte estrutura fatorial presente.

Eu observaria que o viés de ajuste do PCA e o efeito de uma estrutura nítida podem ser descobertos também ao considerar os resíduos "amostra menos amostra reproduzida"; Simplesmente omiti a exibição desses resultados, porque eles parecem não adicionar novas impressões.

Meu conselho amplo e tentativo no final pode ser o de evitar o uso de PCA em vez de FA para fins analíticos de fatores típicos (ou seja, com 10 ou menos fatores esperados na população) , a menos que você tenha mais de 10 vezes mais variáveis ​​que os fatores. E quanto menos fatores, mais severa é a proporção necessária. Gostaria ainda não recomendamos o uso de PCA no lugar de FA em tudo sempre que os dados com bem estabelecida, a estrutura fator afiada é analisado - tal como quando a análise fatorial é feito para validar a ser desenvolvido ou já lançados teste psicológico ou questionário com construções articuladas / escalas . O PCA pode ser usado como uma ferramenta de seleção inicial preliminar de itens para um instrumento psicométrico.

Limitações do estudo. 1) Utilizei apenas o método PAF de extração fatorial. 2) O tamanho da amostra foi fixo (200). 3) A população normal foi assumida na amostragem das matrizes da amostra. 4) Para estrutura afiada, foi modelado igual número de variáveis ​​por fator. 5) Construindo cargas fatoriais de população Eu as emprestei da distribuição aproximadamente uniforme (para estrutura afiada - trimodal, isto é, uniforme de 3 peças). 6) Pode haver omissões neste exame instantâneo, é claro, como em qualquer lugar.


Nota rodapé . O PCA imitará os resultados da FA e se tornará o ajustador equivalente das correlações quando - como dito aqui - as variáveis ​​de erro do modelo, chamadas fatores únicos , não se correlacionam. FA busca para torná-los não correlacionadas, mas PCA não, eles podem acontecer a ser não correlacionadas no PCA. A principal condição em que isso ocorre é quando o número de variáveis ​​por número de fatores comuns (componentes mantidos como fatores comuns) é grande.1

Considere as seguintes fotos (se você precisar primeiro aprender a entendê-las, leia esta resposta ):

insira a descrição da imagem aqui

Pelo requisito da análise fatorial para ser capaz de restaurar com êxito as correlações com poucos mfatores comuns, os fatores únicos , caracterizando porções estatisticamente únicas das variáveis ​​manifestas , não devem ser correlacionados. Quando PCA é usado, o s tem que mentir no subespaço do -espaço gerado por o s porque PCA não deixar o espaço das variáveis analisadas. Assim - veja a foto à esquerda - com (componente principal é o fator extraído) e ( , ) analisados, fatores únicos ,X U X P 1 X 1 X 2 U 1 U 2 r = - 1UpXp Up-mpXm=1P1p=2X1X2U1U2sobrepor compulsoriamente no segundo componente restante (servindo como erro da análise). Consequentemente, eles devem estar correlacionados com . (Na figura, as correlações são iguais aos cossenos de ângulos entre os vetores.) A ortogonalidade requerida é impossível e a correlação observada entre as variáveis ​​nunca pode ser restaurada (a menos que os fatores únicos sejam zero vetores, um caso trivial).r=1

Mas se você adicionar mais uma variável ( ), faça a pic à direita e extraia ainda um pr. componente como fator comum, os três devem estar em um plano (definido pelos dois componentes pr restantes). Três setas podem abranger um plano de maneira que os ângulos entre elas sejam menores que 180 graus. Existe liberdade para os ângulos. Como possível caso particular, os ângulos podem ser aproximadamente iguais, 120 graus. Isso já não está muito longe dos 90 graus, isto é, da falta de correlação. Esta é a situação mostrada na foto. UX3U

À medida que adicionamos a quarta variável, 4 estarão ocupando o espaço 3d. Com 5, 5 para abranger 4d, etc. O espaço para muitos ângulos simultaneamente para atingir mais de 90 graus será expandido. O que significa que o espaço para o PCA abordar a FA em sua capacidade de ajustar triângulos fora da diagonal da matriz de correlação também se expandirá.U

Porém, a AF verdadeira geralmente é capaz de restaurar as correlações mesmo com uma pequena proporção "número de variáveis ​​/ número de fatores" porque, como explicado aqui (e veja a segunda foto lá), a análise fatorial permite todos os vetores de fatores (fatores comuns e exclusivos). outros) desviar-se do espaço das variáveis. Portanto, existe espaço para a ortogonalidade de mesmo com apenas 2 variáveis e um fator.XUX

As fotos acima também dão uma pista óbvia do motivo pelo qual o PCA superestima as correlações. No PIC esquerda, por exemplo, , onde o s são as projecções do s sobre (cargas de ) e o s são os comprimentos do s (cargas de ) Mas essa correlação reconstruída por sozinha equivale a apenas , ou seja, maior que . a X P 1 P 1 u U P 2 P 1 a 1 a 2 r X 1 X 2rX1X2=a1a2u1u2aXP1P1uUP2P1a1a2rX1X2


11
Eu amo seus desenhos PCA / FA / CCA, tão felizmente com +1. Esse modo de pensar é algo com o qual não estou acostumado, por isso requer um pouco de reflexão para mapeá-lo para a matemática que eu conheço ... No entanto, observe que aqui (assim como em sua outra famosa resposta FA-vs-PCA, desenhos) você tem apenas duas variáveis. Como eu disse na minha resposta, quando existem apenas duas variáveis, um fator na FA é suficiente para reproduzir perfeitamente a covariância, 100% (porque há apenas um grau de liberdade na matriz de covariância, além da diagonal), mas um PC geralmente não pode fazê-lo. Portanto, não há contradição com a minha resposta.
ameba diz Restabelecer Monica 11/11

Hmm, espero não ter entendido mal o ponto de reprodução diferente da FA e da PCA. THe lugar aqui é curto para o meu ponto, eu colocá-lo em outra resposta
Gottfried Helms

2
Respondendo à sua atualização (que é a sua resposta à minha atualização 2): Concordo plenamente com tudo o que você escreveu aqui! As cargas de PCA são a melhor aproximação de baixo escalão para toda a matriz de covariância (incluindo a diagonal), mas não necessariamente a melhor aproximação de baixo escalão para a parte fora da diagonal; esta última aproximação é dada por análise fatorial. Parece que chegamos a acordo mútuo aqui; ou você ainda acha que algumas partes da minha resposta contradizem seu pensamento?
Ameba diz Reinstate Monica

11
@ttnphns: Reli nossa discussão acima e deixe-me voltar a um ponto que afirmei na minha resposta original. O PCA tenta encontrar cargas aproximando toda a matriz de covariância; O FA tenta encontrar cargas aproximando-se da parte fora da diagonal. Porém, quanto maior a dimensionalidade, menor a parte da matriz de covariância é ocupada por sua diagonal, o que significa que em grandes dimensões o PCA começa a se preocupar principalmente com a parte fora da diagonal (porque a parte diagonal se torna muito pequena). Portanto, em geral, quanto maior a dimensionalidade, mais próximo o PCA fica do FA. Você concorda?
Ameba diz Reinstate Monica

11
Obrigado pelo ping, ttnphns. Uau, isso parece interessante. Vou ler com atenção, mas não agora; Talvez eu tenha que adiá-lo para janeiro. Vou comentar aqui depois de ler. A propósito, eu estive pensando (na parte de trás da minha cabeça) em voltar a este tópico e editar minha resposta um pouco para torná-la mais "reconciliatória". Essa pode ser uma boa oportunidade para fazê-lo (mas deixe-me ler o que você escreveu primeiro). С наступающим!
amoeba diz Restabelecer Monica

4

(Este é realmente um comentário da segunda resposta de @ ttnphns)
No que diz respeito ao tipo diferente de reprodução de covariância que assume erro por PC e por FA, simplesmente imprimi as cargas / componentes de variação que ocorrem nas duas precedências ; apenas para os exemplos eu peguei 2 variáveis.

Assumimos a construção dos dois itens como um fator comum e fatores específicos de itens. Aqui está essa fator-loadingsmatrix:

  L_fa: 
          f1       f2      f3         
  X1:   0.894    0.447     .             
  X1:   0.894     .       0.447              

A matriz de correlação por isso é

  C:
         X1       X2 
  X1:   1.000   0.800
  X2:   0.800   1.000

Se olharmos para a matriz de carregamento L_fa e interpretarmos como de costume na FA que f2 e f3 são termos de erro / erro específico de itens, reproduzimos C sem esse erro, recebendo

 C1_Fa 
        X1       X2 
 X1:  0.800   0.800
 X2:  0.800   0.800

Então, reproduzimos perfeitamente o elemento fora da diagonal, que é a covariância (e a diagonal é reduzida)

Se olharmos para a solução pca (pode ser feita por rotações simples), obtemos os dois fatores da mesma matriz de correlação:

 L_pca : 
         f1        f2
 X1:   0.949      -0.316
 X2:   0.949       0.316

Assumindo o segundo fator como erro, obtemos a matriz reproduzida de covariâncias

  C1_PC : 
        X1      X2
 X1:   0.900   0.900
 X2:   0.900   0.900

onde superestimamos a verdadeira correlação. Isso ocorre porque ignoramos a covariância parcial negativa corrigida no segundo fator = erro. Observe que o PPCA seria idêntico ao primeiro exemplo.

Com mais itens, isso não é mais tão óbvio, mas ainda é um efeito inerente. Portanto, há também o conceito de extração MinRes (ou -rotação?) E também vi algo como extração determinante máxima e ...


[atualização] Quanto à questão do @amoeba:

Entendi o conceito de "Resíduos Mínimos" ("MinRes") - rotação como um método concorrente aos métodos anteriores de computação CFA, para obter a melhor reprodução dos elementos fora da diagonal de uma matriz de correlação. Aprendi isso nas décadas de 80 e 90 e não acompanhei o desenvolvimento da análise fatorial (tão aprofundada quanto antes nos últimos anos); portanto, possivelmente "MinRes" está fora de moda.

Para comparar com a solução PCA : pode-se pensar em encontrar a solução pc por rotações dos fatores quando eles são pensados ​​como eixos em um espaço euclidiano e as cargas são as coordenadas dos itens naquele espaço de vetores.
Então, para um par de eixos, diga x, y as somas de quadrados das cargas do eixo x e do eixo y são computadas.
A partir disso, pode-se encontrar um ângulo de rotação, pelo qual devemos girar, para obter as somas de quadrados nos eixos girados no máximo no eixo x ° e mínimo no eixo y ° (onde o círculo litte indica os eixos girados) .

Faça isso para todos os pares de eixos (em que apenas sempre o eixo x é o esquerdo e o eixo y é o direito (portanto, para 4 fatores, temos apenas 6 pares de rotação)) e repita todo o processo para obter um resultado estável realiza o chamado "método Jacobi" para encontrar a solução dos componentes principais: localizará o primeiro eixo de modo a coletar a soma máxima possível dos quadrados das cargas ("SSqL") (que significa também "da variação" ") em um eixo na configuração correlacional atual.

Tanto quanto eu entendi, " MinRes " deve considerar as correlações parciais, em vez do SSqL; portanto, não resume os quadrados das cargas (como feito na rotação Jacobi-pc), mas resume os produtos cruzados das cargas em cada fator - exceto os "produtos cruzados" (= quadrados) das cargas de cada item com ele mesmo.
Depois de calculados os critérios para o eixo x e o eixo y, procede da mesma maneira que a descrita para a rotação jacobi iterativa.

Uma vez que o critério de rotação é numericamente diferente do critério de SSqL máximo, o resultado / posição de rotação deve ser diferente da solução PCA. Se convergir, deve fornecer a correlação parcial máxima possível em um eixo no primeiro fator, a próxima correlação máxima no próximo fator e assim por diante. A idéia parece ser, então, assumir tantos eixos / fatores que a covariância parcial remanescente / residual se torna marginal.

(Observe que isto é apenas como eu interpretei as coisas, eu não vi esse procedimento explicitamente escrito (ou não consigo me lembrar no momento); uma descrição no mathworld parece expressá-lo em termos de fórmulas, como na resposta da ameba) e é provavelmente mais autoritário. Acabei de encontrar outra referência na documentação do projeto R e uma provável referência muito boa no livro de Gorsuch sobre análise fatorial, página 116, disponível via google-books )


Você pode explicar a que você está se referindo na sua última frase? O que é extração "MinRes" ou "determinante máximo" e como isso está relacionado ao que você escreveu antes?
Ameba diz Reinstate Monica

"MinRes" é um método de extração ou rotação que eu encontrei anos atrás, nas monografias de S Mulaik ou K. Überla sobre análise fatorial. Ele se concentra em minimizar os elementos residuais fora da diagonal. Por ter sido mencionado explicitamente no contexto de muitos outros métodos, presumi que fosse - possivelmente um pouco - diferente do CFA - implementações daquela época. Eu tentei implementar sua lógica como critério de rotação, mas de alguma forma não tive resultado conclusivo. Eu também esperava que "Maximizando o determinante" fosse conhecido aqui; Vou ver a descrição que recebi há 20 anos ...
Gottfried Helms

Ahh, eu tenho as duas partes. Uma descrição do critério de rotação para a justificativa "minres" está em go.helms-net.de/stat/fa/minres.htm . O "determinante máximo" é o modelo matemático sob um método de extração / rotação de algum correspondente Jeffrey Owen Katz que o chamou de "oblisim" e possivelmente foi desenvolvido após nossa correspondência. Naquele momento, estava acima da minha cabeça; de qualquer maneira, tentei entender o método, formatado e reorganizado em um arquivo de texto. Veja go.helms-net.de/stat/fa/oblisim.zip no Google para "oblisim" deu uma entrada para um grupo de notícias que parece ter introduzido.
Gottfried Helms

@amoeba: Aqui é possivelmente a primeira entrada, onde Jeff Katz apresentou seu conjunto de métodos: mathforum.org/kb/message.jspa?messageID=1516627 É de 1998, então meu palpite há 20 anos foi um pouco impreciso ...
Gottfried Helms

2

Na minha opinião, as noções de "PCA" e "FA" estão em uma dimensão diferente daquela das noções de "exploratório", "confirmatório" ou talvez "inferencial". Portanto, cada um dos dois métodos matemáticos / estatísticos pode ser aplicado com uma das três abordagens.

Por exemplo, por que não seria sensato ter uma hipótese, que meus dados tenham um fator geral e também a estrutura de um conjunto de componentes principais (porque meu experimento com meu aparelho eletrônico me forneceu dados quase livres de erros) e testo minha hipótese, que os autovalores dos fatores subsequentes ocorrem com razão de 75%? Esse é o PCA em uma estrutura confirmatória.

Por outro lado, parece ridículo que em nossa equipe de pesquisa criamos com muito trabalho um item de bateria para medir a violência entre os alunos e assumir três comportamentos principais (agressão física, depressão, busca de ajuda pelas autoridades / pais) e colocar as questões pertinentes nessa bateria ... e "exploratoriamente" calcule quantos fatores temos ... Em vez disso, para ver como nossa escala contém três fatores reconhecíveis (além de itens negligenciáveis, específicos e possivelmente até mesmo erros espúrios). E depois disso, quando confirmei que, de fato, nossa bateria de itens serve à intenção, poderíamos testar a hipótese de que, nas classes de crianças mais novas, a carga no fator que indica "procurar ajuda pelas autoridades" é maior do que os alunos mais velhos. Hmmm, mais uma vez confirmatório ...

E exploratório? Eu tenho um conjunto de medidas tomadas em uma pesquisa em microbiologia de 1960 e eles não tinham muita teoria, mas experimentaram tudo o que conseguiram gerenciar porque seu campo de pesquisa era muito jovem e eu re-exploro a estrutura fatorial dominante, assumindo (por exemplo) , que todos os erros são da mesma quantidade devido à precisão óptica do microscópio usado (o ppca-ansatz, como acabei de aprender). Então eu uso o modelo estatístico (e subsequentemente o matemático) para a FA, mas neste caso de maneira exploratória.

É pelo menos assim que eu entendo os termos.
Talvez eu esteja completamente no caminho errado aqui, mas não assumo isso.


Ps. Nos anos 90, escrevi um pequeno programa interativo para explorar o método de PCA e análise fatorial até o fim. Foi escrito em Turbo-Pascal, ainda pode ser executado apenas em um Dos-Window ("Dos-box" no Win7), mas tem um apelo muito bom: alternar fatores de maneira interativa a serem incluídos ou não e, em seguida, girar, separar itens específicos de erros - variância (de acordo com o critério SMC ou o critério de variâncias iguais (ppca?)), ativar e desativar a opção Kaiser, ativar e desativar o uso das covariâncias - apenas enquanto a matriz de loadloading de fatores estiver visível como em uma planilha e pode ser girado para os diferentes métodos básicos de rotação.
Não é altamente sofisticado: nenhum teste do qui-quadrado, por exemplo, apenas destinado ao auto-aprendizado da mecânica matemática interna. Também possui um "modo de demonstração", onde o programa é executado, mostrando comentários explicativos na tela e simulando as entradas do teclado, o que o usuário normalmente faria.
Quem estiver interessado em fazer um auto-estudo ou ensinar com ele pode baixá-lo das minhas pequenas páginas de software dentro de (R) .zip Basta expandir os arquivos no zip em um diretório acessível pelo Dos-Box e chamar "demoall.bat" em a terceira parte do "demoall" fiz uma demonstração de como modelar erros específicos de itens por rotações de uma solução pca inicialmente ...


Uma porta R do seu programa seria interessante. A propósito, minha primeira linguagem de programação (e uma das favoritas) foi [Turbo] Pascal. Eu até o usei para escrever software para o meu trabalho com o diploma de bacharel. Então, algum tempo depois, usei o Delphi por um tempo, junto com outros idiomas e sistemas. :-)
Aleksandr Blekh

11
@Aleksandr: Bem, essa importação certamente seria uma boa idéia; no entanto ... enquanto isso, recebo os "ingressos para idosos" para o sistema de tráfego local e, embora ainda não esteja cansado, estou um pouco cansado de programar ... acho que "Delphi" foi um substituto natural do Turbo Pascal ; Eu havia melhorado muito o Inside- [r] até uma calculadora matricial "MatMate" usando o Delphi 6 no qual eu incorporei o Inside- [r] como uma ferramenta auxiliar. No entanto, às vezes eu penso, esse recurso realmente agradável com point & click no interior- [r] também deve ser re-realizado - além de qualquer script- sofisticado ou interpreterlanguage ...
Gottfried Helms

2

Apenas mais um comentário para a resposta longa (e realmente ótima) de @ amebas sobre o caráter da estimativa . Ψ

Em suas declarações iniciais, você tem três : para PCA é , para PPCA é e para FA você deixou indeterminado. Ψ = 0 Ψ = σ 2 I ΨΨΨ=0Ψ=σ2IΨ

Mas deve-se mencionar que existe um número infinito de vários possíveis (certamente restritos), mas exatamente um único que minimiza a classificação da matriz fatorial. Vamos chamar isso de A estimativa padrão (automática) para é a matriz diagonal baseada nos , então vamos escrever como (e até alguns softwares (aparentemente) não tentam otimizar para baixo de enquanto é (geralmente) necessário para evitar casos de Heywood / definição negativa). Além disso, mesmo esses otimizadosΨΨoptΨstdΨstd=α2Dsmcα1α<1 α2não garantiria uma classificação mínima das covariâncias restantes; portanto, geralmente temos isso não é o mesmo: em geral . Realmente encontrar é um jogo muito difícil, e até onde eu sei (mas isso não é tão "longe" quanto, digamos, 20 anos atrás, quando eu estava mais envolvido e mais próximo dos livros), isso ainda é um problema não resolvido. ΨstdΨopt
Ψopt


Bem, isso reflete o lado matemático ideal do problema, e minha distinção entre e também pode ser realmente pequena. Uma ressalva mais geral é, no entanto, que ela discute todo o mecanismo de fatoração da visão de que estudo apenas minha amostra ou tenho dados de toda a população ; no modelo de estatística inferencial, em que deduzo de uma amostra imperfeita da população, minha covariância empírica - e, portanto, também a matriz fatorial é apenas uma estimativa, é apenas uma sombra da covariância "verdadeira" / matriz fatorial. Assim, em tal estrutura / modelo, devemos até considerar que nossos "erros" não são ideaisΨstdΨopte, portanto, pode ser espuriosamente correlacionado. Portanto, de fato, nesses modelos, devemos / deixamos para trás a suposição idealista de algum erro não correlacionado e, portanto, de uma forma estritamente diagonal de .Ψ


Olá, não sei se posso seguir totalmente suas observações aqui. Entendo corretamente que por você quer dizer uma matriz diagonal com elementos positivos que possui a menor classificação possível (onde é a matriz cov / corr)? Eu acho que para geral de tamanho essa classificação mais baixa possível não é muito menor que (talvez ou algo assim), portanto, encontrar não parece muito interessante. Baseei minha resposta no pressuposto de que a FA tenta encontrar e (de tamanho para um determinadoΨoptCΨoptCCn×nnn1ΨoptΨWn×kk) para minimizar. CWWΨ
ameba diz Restabelecer Monica

A diferença dos pontos de vista pode ser baseada na ordem das etapas para resolver o problema e estimar dois parâmetros que também dependem um do outro. Na minha observação, começo com o argumento de que existe um para o qual a classificação restante, digamos , de é mínima e , embora possa ser que tenhamos alguns fatores com em mente. Se W_r para a posição minres, qualquer número de fatores cortado à direita remove apenas a covariância mínima (parcial). ...ΨoptrC=CΨopt||CWrWr||=0kk<rWrr+1k
Gottfried Helms

(...) Se você começar com , em geral, possui pelo menos uma classificação a mais e, portanto, o número de fatores s terá . Então, encontrar a quantidade mínima possível de covariância removível cortando fatores (mesmo após a rotação por alguns critérios como pc ou minres) deve ser abaixo do ideal. Isenção de responsabilidade : ainda é uma hipótese - é difícil encontrar para covariâncias, cuja estrutura não é auto-fabricada e todos os experimentos pseudo-aleatórios com exemplos auto-fabricados são menos confiáveis ​​que os casos empíricos. ΨstdCstds>rs+1kΨopt
Gottfried Helms

OK, entendo o que você está dizendo. O que dizer é que, para mais real, a classificação de será quase a mesma que , ou seja, . Se alguém simplesmente girar o depois disso, isso provavelmente é quase equivalente ou muito próximo de executar o PCA em e não se preocupar com a FA. C * = C - Ψ o p t C r n » k W r CCC=CΨoptCrnkWrC
ameba diz Restabelecer Monica

Verdadeiro. Bem, pensei em torná-lo mais explícito onde o caso "ideal" deve ser encontrado, de onde reduzimos a aproximações praticamente computáveis. <br> E agora ainda mais a favor do PCA ;-): Permitir correlação espúria no erro (no segundo modo de aplicação / estatística inferencial) permite que o resultado se aproxime novamente de um dos tipos que começaram com a extração do PC ...
Gottfried Helms
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.