Eu sou um estudante de graduação em ciência da computação. Fiz algumas análises fatoriais exploratórias para um projeto de pesquisa. Meus colegas (que lideram o projeto) usam o SPSS, enquanto eu prefiro o R. Isso não importou até que descobrimos uma grande discrepância entre os dois pacotes estatísticos.
Estamos usando fatoração de eixo principal como método de extração (observe que estou bem ciente da diferença entre o PCA e a análise fatorial e que não estamos usando o PCA , pelo menos não intencionalmente). Pelo que tenho lido, esta deve corresponder ao método de "eixo principal" em R, e quer "principal factoring eixo" ou "mínimos quadrados não ponderados" em SPSS, de acordo com a documentação R . Estamos usando um método de rotação oblíqua (especificamente, promax ) porque esperamos fatores correlatos e estamos interpretando a matriz de padrões .
Executando os dois procedimentos no R e no SPSS, existem grandes diferenças. A matriz de padrões fornece diferentes cargas. Embora isso dê mais ou menos o mesmo fator às relações variáveis, há uma diferença de 0,15 entre as cargas correspondentes, o que parece mais do que seria esperado por apenas uma implementação diferente do método de extração e rotações do promax. No entanto, essa não é a diferença mais surpreendente.
A variância cumulativa explicada pelos fatores é de cerca de 40% nos resultados do SPSS e 31% nos resultados de R. Essa é uma diferença enorme e levou meus colegas a querer usar o SPSS em vez de R. Não tenho nenhum problema com isso, mas uma diferença tão grande me faz pensar que podemos estar interpretando algo incorretamente, o que é um problema.
Confundindo ainda mais as águas, o SPSS relata diferentes tipos de variação explicada quando executamos fatoração de mínimos quadrados não ponderada. A proporção da variação explicada pelos valores próprios iniciais é de 40%, enquanto a proporção da variação explicada dos Soma de extração de cargas quadradas (SSL) é de 33%. Isso me leva a pensar que os autovalores iniciais não são o número apropriado para se olhar (suspeito que essa seja a variação explicada antes da rotação, embora seja tão grande que esteja além de mim). Ainda mais confuso, o SPSS também mostra o Rotation SSL, mas não calcula a porcentagem de variação explicada (o SPSS me diz que ter fatores correlatos significa que não posso adicionar SSLs para encontrar a variação total, o que faz sentido com a matemática que já vi). Os SSLs relatados de R não correspondem a nenhum deles, e R diz que descreve 31% da variação total. Os SSLs de R correspondem aos SSL de rotação mais de perto. Os autovalores de R da matriz de correlação original correspondem aos autovalores iniciais do SPSS.
Além disso, observe que eu brinquei com o uso de métodos diferentes e que o ULS e o PAF do SPSS parecem combinar o método de PA do R o mais próximo.
Minhas perguntas específicas:
- Quanta diferença devo esperar entre o R e o SPSS com implementações de análise fatorial?
- Qual das somas de cargas quadradas do SPSS devo interpretar, autovalores iniciais, extração ou rotação?
- Existem outros problemas que eu possa ter esquecido?
Minhas chamadas para SPSS e R são as seguintes:
SPSS:
FACTOR
/VARIABLES <variables>
/MISSING PAIRWISE
/ANALYSIS <variables>
/PRINT INITIAL KMO AIC EXTRACTION ROTATION
/FORMAT BLANK(.35)
/CRITERIA FACTORS(6) ITERATE(25)
/EXTRACTION ULS
/CRITERIA ITERATE(25)
/ROTATION PROMAX(4).
R:
library(psych)
fa.results <- fa(data, nfactors=6, rotate="promax",
scores=TRUE, fm="pa", oblique.scores=FALSE, max.iter=25)