Para recursos booleanos (ou seja, categóricos com duas classes), uma boa alternativa ao uso do PCA consiste em usar a Análise de Correspondência Múltipla (MCA), que é simplesmente a extensão do PCA a variáveis categóricas (consulte o tópico relacionado ). Para alguns antecedentes sobre MCA, os artigos são Husson et al. (2010) ou Abdi e Valentin (2007) . Um excelente pacote R para executar o MCA é o FactoMineR . Ele fornece ferramentas para plotar mapas bidimensionais das cargas das observações nos componentes principais, o que é muito esclarecedor.
Abaixo estão dois exemplos de mapas de um dos meus projetos de pesquisa anteriores (plotados com ggplot2). Eu tinha apenas cerca de 60 observações e deu bons resultados. O primeiro mapa representa as observações no espaço PC1-PC2, o segundo mapa no espaço PC3-PC4 ... As variáveis também são representadas no mapa, o que ajuda na interpretação do significado das dimensões. A coleta de informações de vários desses mapas pode fornecer uma boa imagem do que está acontecendo em seus dados.
No site vinculado acima, você também encontrará informações sobre um novo procedimento, o HCPC, que significa Clustering hierárquico nos componentes principais e que pode ser do seu interesse. Basicamente, esse método funciona da seguinte maneira:
- realizar um MCA,
- mantenha as primeiras dimensões (em que , com seu número original de recursos). Esta etapa é útil na medida em que remove algum ruído e, portanto, permite um cluster mais estável,k < p pkk<pp
- execute um cluster hierárquico aglomerativo (de baixo para cima) no espaço dos PCs retidos. Como você usa as coordenadas das projeções das observações no espaço do PC (números reais), é possível usar a distância euclidiana, com o critério de Ward para o enlace (aumento mínimo na variação dentro do cluster). Você pode cortar o dendograma na altura desejada ou deixar a função R cortar se você basear-se em alguma heurística,
- (opcional) estabilize os clusters executando um cluster K-means. A configuração inicial é dada pelos centros dos clusters encontrados na etapa anterior.
Em seguida, você tem várias maneiras de investigar os clusters (recursos mais representativos, indivíduos mais representativos etc.)