Existe análise fatorial ou PCA para dados ordinais ou binários?


28

Concluí a análise de componentes principais (PCA), análise fatorial exploratória (EFA) e análise fatorial confirmatória (CFA), tratando dados em escala likert (respostas em cinco níveis: nenhuma, um pouco, algumas, etc.) como contínua variável. Em seguida, usando Lavaan, repeti o CFA definindo as variáveis ​​como categóricas.

Gostaria de saber para que tipos de análise seria apropriado e seria equivalente ao PCA e ao EFA quando os dados são de natureza ordinal . E quando binário .

Também gostaria de receber sugestões de pacotes ou softwares específicos que podem ser facilmente implementados para essas análises.

Respostas:


38

A análise tradicional (linear) de PCA e fator exige dados em nível de escala (intervalo ou razão). Frequentemente, assume-se que os dados de classificação do tipo likert estão no nível da escala, porque esses dados são mais fáceis de analisar. E a decisão às vezes é justificada estatisticamente, especialmente quando o número de categorias ordenadas é maior que 5 ou 6. (Embora logicamente a questão do tipo de dados e o número de níveis de escala sejam distintos).

E se você preferir tratar a escala likt politômica como ordinal? Ou você tem dados dicotômicos? É possível fazer análise fatorial exploratória ou PCA para eles?

Atualmente, existem três abordagens principais para executar a AF (incluindo o PCA como seu caso especial) em variáveis ​​ordinais ou binárias categóricas (leia também este relato sobre o caso de dados binários e essa consideração sobre o que pode ser feito com a escala ordinal).

  1. Abordagem ideal de dimensionamento (uma família de aplicativos ). Também chamado PCA categórico (CatPCA) ou FA não linear. No CatPCA, as variáveis ​​ordinais são transformadas monotonicamente ("quantificadas") em suas versões de intervalo "subjacentes", com o objetivo de maximizar a variação explicada pelo número selecionado de componentes principais extraídos desses dados de intervalo. O que torna o método abertamente orientado por objetivos (em vez de orientado por teoria) e importante para decidir antecipadamente o número de componentes principais. Se a FA verdadeira for necessária em vez da PCA, a FA linear usual poderá ser executada naturalmente nessas variáveis ​​transformadas geradas pelo CatPCA. Com variáveis ​​binárias, o CatPCA (infelizmente?) Se comporta da maneira usual da PCA, ou seja, como se fossem variáveis ​​contínuas. O CatPCA também aceita variáveis ​​nominais e qualquer mistura de tipos de variáveis ​​(agradável).

  2. Abordagem variável subjacente inferida . Também conhecido como PCA / FA realizado em correlações tetracóricas (para dados binários) ou policóricas (para dados ordinais). A distribuição normal é assumida para a variável contínua subjacente (então binned) para cada variável de manifesto. Em seguida, a AF clássica é aplicada para analisar as correlações acima mencionadas. A abordagem permite facilmente uma mistura de intervalos, dados ordinais e binários. Uma desvantagem da abordagem é que - ao inferir as correlações - ela não tem pistas da distribuição multivariada das variáveis ​​subjacentes - pode "conceber" no máximo distribuições bivariadas, portanto, não se baseia em informações completas.

  3. Abordagem da teoria da resposta ao item (TRI). Às vezes também chamado de análise logística de características latentes ou FA . Um modelo muito próximo ao modelo de logit binário (para dados binários) ou de probabilidades de log proporcional (para dados ordinais) é aplicado. O algoritmo não está vinculado à decomposição de uma matriz de correlação, portanto está um pouco distante da AF tradicional, ainda assim, é uma FA categórica de boa-fé. "Parâmetros de discriminação" correspondem intimamente às cargas de FA, mas "dificuldades" substituem a noção de "singularidades" de FA. A certeza da adequação da TRI diminui rapidamente à medida que o número de fatores cresce, o que é um lado problemático dessa abordagem. A TRI é extensível à sua maneira de incorporar variáveis ​​mistas de intervalo misto + binário + ordinal e possivelmente nominais.

As pontuações fatoriais nas abordagens (2) e (3) são mais difíceis de estimar do que as pontuações fatoriais na AF clássica ou na abordagem (1). No entanto, existem vários métodos (métodos esperados ou máximos aposteriori, método de máxima verossimilhança, etc.).

As premissas do modelo de análise fatorial são basicamente as mesmas nas três abordagens que na AF tradicional. A abordagem (1) está disponível em R, SPSS, SAS (na minha opinião). As abordagens (2) e (3) são implementadas principalmente em pacotes especializados de variáveis ​​latentes - Mplus, LISREL, EQS.

  1. Abordagem polinomial. Isso ainda não foi desenvolvido na íntegra. Os componentes principais podem ser modelados como combinações polinomiais de variáveis ​​(o uso de polinômios é uma maneira popular de modelar efeitos não lineares de regressores ordinais). Além disso, as categorias observadas, por sua vez, podem ser modeladas como manifestações discretas de combinações polinomiais de fatores latentes.

  2. Existe um campo florescente de técnicas não lineares de redução de dimensionalidade; alguns deles podem ser aplicados ou adotados para trabalhar com dados categóricos (especialmente binários ou após a binarização em um conjunto de dados esparsos de alta dimensão).

  3. r

Veja também isto , isto , isto , isto , isto , isto , isto , isto .


3
Resposta fenomenal. A única coisa a acrescentar é que acho que você pode usar o pacote psych em R para implementar abordagens em (2) (consulte a opção "cor" para a função fa) e (3) (consulte as funções irt.fa e irt.poly ) em vários graus, e o pacote ltm também pode ser usado para ajustar-se a vários modelos de IRT.
Jsakaluk

1
Eles podem diferir assim. Eu fiz várias vezes a criação / validação de inventário por "FA não linear" (CatPCA-então-EFA) e encontrei resultados melhores do que o EFA (linear) usual. O procedimento que eu adotei foi semelhante ao da FA usual, a única diferença é que, para todas as análises - todo conjunto de itens que eu tento e todo número de fatores que extraio - eu fiz o CatPCA-then (nas variáveis ​​quantificadas) -EFA pas de deux .
Ttnphns

@jsakaluk, Muito obrigado pela informação. (Eu não sou usuário R, apenas conheço mal sua capacidade fenomenal).
Ttnphns

Obrigado por respostas tão completas. @ttnphns Passei a maior parte do dia tentando implementar o CATPCA no SPSS 23. Consegui localizar dois tutoriais ( Linting & Kooij (2012) e unt.edu/rss/class/Jon/SPSS_SC/Module9/M9_CATPCA/… ) falhei em responder algumas de minhas próprias perguntas. Você poderia sugerir uma boa saída para resolver algumas questões técnicas? Mais uma vez obrigado.
precisa saber é o seguinte

1
@ user116948, Se você tiver problemas para entender como trabalhar com ele no SPSS: Antes de tudo, localize e leia o estudo de caso CATPCA no submenu SPSS Case Studies no menu Ajuda. Segundo, procure todas as perguntas sobre a CATPCA já feitas neste site. Terceiro: se você ainda tiver dúvidas - faça como uma nova pergunta no site. Não se preocupe: se for "muito técnico", poderá ser transferido para o StackOveflow. Quarto: escolha uma comunidade SPSS para fazer sua pergunta (o SPSSXL é o melhor). Um brinde a você.
ttnphns
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.