Eu estaria interessado em receber sugestões sobre quando usar " pontuações fatoriais " sobre a soma simples de pontuações ao construir escalas. Ou seja, métodos "refinados" sobre "não refinados" de pontuação de um fator. De DiStefano et al. (2009; pdf ), ênfase adicionada:
Existem duas classes principais de métodos de cálculo de pontuação fatorial: refinada e não refinada. Métodos não refinados são procedimentos cumulativos relativamente simples para fornecer informações sobre a colocação de indivíduos na distribuição de fatores. A simplicidade se presta a alguns recursos atraentes, ou seja, métodos não refinados são fáceis de calcular e fáceis de interpretar. Métodos de computação refinados criam pontuações fatoriais usando abordagens mais sofisticadas e técnicas. Eles são mais exatos e complexos que os métodos não refinados e fornecem estimativas que são pontuações padronizadas.
Na minha opinião, se o objetivo é criar uma escala que possa ser usada em estudos e configurações, uma soma simples ou pontuação média de todos os itens da escala faz sentido. Mas digamos que o objetivo seja avaliar os efeitos do tratamento de um programa e o importante contraste esteja na amostra - tratamento versus grupo controle. Existe alguma razão pela qual podemos preferir pontuações fatoriais a escalar somas ou médias?
Para ser concreto sobre as alternativas, tome este exemplo simples:
library(lavaan)
library(devtools)
# read in data from gist ======================================================
# gist is at https://gist.github.com/ericpgreen/7091485
# this creates data frame mydata
gist <- "https://gist.github.com/ericpgreen/7091485/raw/f4daec526bd69557874035b3c175b39cf6395408/simord.R"
source_url(gist, sha1="da165a61f147592e6a25cf2f0dcaa85027605290")
head(mydata)
# v1 v2 v3 v4 v5 v6 v7 v8 v9
# 1 3 4 3 4 3 3 4 4 3
# 2 2 1 2 2 4 3 2 1 3
# 3 1 3 4 4 4 2 1 2 2
# 4 1 2 1 2 1 2 1 3 2
# 5 3 3 4 4 1 1 2 4 1
# 6 2 2 2 2 2 2 1 1 1
# refined and non-refined factor scores =======================================
# http://pareonline.net/pdf/v14n20.pdf
# non-refined -----------------------------------------------------------------
mydata$sumScore <- rowSums(mydata[, 1:9])
mydata$avgScore <- rowSums(mydata[, 1:9])/9
hist(mydata$avgScore)
# refined ---------------------------------------------------------------------
model <- '
tot =~ v1 + v2 + v3 + v4 + v5 + v6 + v7 + v8 + v9
'
fit <- sem(model, data = mydata, meanstructure = TRUE,
missing = "pairwise", estimator = "WLSMV")
factorScore <- predict(fit)
hist(factorScore[,1])
They are more exact
Essa ênfase adicional não deve nos distrair do fato de que mesmo as pontuações dos fatores são inevitavelmente inexatas ("indeterminadas").
"more exact"
. Entre as pontuações de fatores calculadas linearmente, o método de regressão é mais "exato" no sentido "mais correlacionado com os valores reais de fatores desconhecidos". Então, sim, mais exato (dentro da abordagem algébrica linear), mas não totalmente exato.