Fazendo análise de componente principal ou análise fatorial em dados binários

Eu tenho um conjunto de dados com um grande número de respostas Sim / Não. Posso usar componentes principais (PCA) ou qualquer outra análise de redução de dados (como análise fatorial) para esse tipo de dados? Por favor, informe como eu faço isso usando o SPSS.

— Cathy
fonte

O que fez você considerar o PCA especificamente em oposição à análise discriminante?

— Chris Simokat

Veja também: stats.stackexchange.com/a/186026/3277

— ttnphns

A questão das variáveis dicotômicas ou binárias na análise PCA ou fator é eterna. Existem opiniões polares de "é ilegal" a "está tudo bem", através de algo como "você pode fazê-lo, mas terá muitos fatores". Minha opinião atual é a seguinte. Primeiro, considero que a variável observada binária é discreta e que é inadequado tratá-la de qualquer maneira como contínua. Essa variável discreta pode gerar fator ou componente principal?

Análise fatorial (FA). O fator por definição é um latente contínuo que carrega variáveis observáveis ( 1 , 2 ). Conseqüentemente, o último não pode ser senão contínuo (ou intervalo, na prática) quando carregado o suficiente por fator. Além disso, a FA, devido à sua natureza regressiva linear, pressupõe que a parte restante - não carregada -, chamada uniqness, também seja contínua e, portanto, as variáveis observáveis devem ser contínuas mesmo quando carregadas um pouco. Assim, variáveis binárias não podem se legislar na FA. No entanto, existem pelo menos duas maneiras: (A) Assuma as dicotomias à medida que as variáveis subjacentes continuam rugosas e faça FA com correlações tetracóricas - em vez de Pearson -; (B) Suponha que o fator carrega uma variável dicotômica não linearmente, mas logisticamente e faça a Análise de Características Latentes (também conhecida como Teoria da Resposta ao Item) em vez da FA linear. Leia mais .
Análise de Componentes Principais (PCA). Embora tenha muito em comum com a FA, o PCA não é uma modelagem, mas apenas um método de resumo. Os componentes não carregam variáveis no mesmo sentido conceitual que os fatores carregam variáveis. No PCA, os componentes carregam variáveis e as variáveis carregam componentes. Essa simetria ocorre porque o PCA em si é apenas uma rotação de variáveis-eixos no espaço. As variáveis binárias não fornecem continuidade verdadeira para um componente por si mesmas - já que não são contínuas, mas a pseudocontinuidade pode ser fornecida pelo ângulo de rotação da PCA que pode parecer qualquer. Assim, no PCA, e em contraste com o FA, é possível obter dimensões aparentemente contínuas (eixos rotados ) com variáveis puramente binárias (eixos não rotacionados) - o ângulo é a causa da continuidade $^1$

(0,0) $^2$

Algumas perguntas relacionadas a FA ou PCA de dados binários: 1 , 2 , 3 , 4 , 5 , 6 . As respostas lá potencialmente podem expressar opiniões diferentes das minhas.

$^1$ entidades de nível - para variáveis como pontos ou categorias como pontos - suas coordenadas no espaço dos eixos principais são, de fato, valores de escala legitimamente. Mas não para pontos de dados (casos de dados) de dados binários, - suas "pontuações" são valores pseudo- contínuos: não medida intrínseca, apenas algumas coordenadas de sobreposição.

$^2$ $1$

Exemplo de dados binários (apenas um caso simples de duas variáveis):

Os gráficos de dispersão abaixo exibem os pontos de dados um pouco mais agitados (para renderizar frequência) e mostram os eixos dos componentes principais como linhas diagonais contendo pontuações de componentes [essas pontuações, de acordo com minha afirmação, são valores pseudo- contínuos]. O gráfico da esquerda em todas as imagens demonstra o PCA com base em desvios "brutos" da origem, enquanto o gráfico da direita demonstra o PCA com base em desvios em escala (diagonal = unidade) dele.

1) O PCA tradicional coloca a (0,0)origem na média dos dados (centróide). Para dados binários, a média não é um valor de dados possível. É, no entanto, centro de gravidade físico. O PCA maximiza a variabilidade sobre isso.

(Não se esqueça, também, de que, em uma variável binária, a média e a variância estão estritamente ligadas, elas são, por assim dizer, "uma coisa". Padronizar / escalar variáveis binárias, ou seja, executar PCA com base em correlações e não covariâncias, em a instância atual, significa que você impede que variáveis mais equilibradas - com maior variação - influenciem o PCA maior do que as variáveis assimétricas.)

2) Você pode executar o PCA em dados não centrados, ou seja, deixar a origem (0,0)ir para o local (0,0). É PCA na X'X/nmatriz MSCP ( ) ou na matriz de similaridade de cosseno. O PCA maximiza a protuberabilidade a partir do estado sem atributo.

3) Você pode deixar a origem (0,0)no ponto de dados da menor soma das distâncias de Manhattan e em todos os outros pontos de dados - L1 medóide. Medóide, geralmente, é entendido como o ponto de dados mais "representativo" ou "típico". Portanto, o PCA maximizará a atipicidade (além da frequência). Em nossos dados, o medóide L1 caiu nas (1,0)coordenadas originais.

4) Ou coloque a origem (0,0)nas coordenadas de dados onde a frequência é a mais alta - modo multivariado. É a (1,1)célula de dados em nosso exemplo. O PCA maximizará (será guiado por) modos juniores.

5) No corpo da resposta, foi mencionado que as correlações tetracóricas são uma boa questão para a análise fatorial, para variáveis binárias. O mesmo poderia ser dito sobre o PCA: você pode fazer o PCA com base em correlações tetracóricas . No entanto, isso significa que você está supondo uma variável contínua subjacente dentro de uma variável binária.

— ttnphns
fonte

Sobre a conexão entre FA em itens binários e modelos de TRI (1- e 2-PL), aqui estão dois artigos que podem ser interessantes: Takane & de Leeuw, Sobre a relação entre a teoria da resposta ao item e a análise fatorial de variáveis discretizadas , Psychometrika ( 1987) 52 (3): 393; e uma mais recente, Kamata & Bauer, Uma nota sobre a relação entre os modelos de teoria analítica de fator e resposta ao item , SEM (2008) 15: 136.

— chl