Eu tenho um conjunto de dados de mais de 1000 amostras de 19 variáveis. Meu objetivo é prever uma variável binária com base nas outras 18 variáveis (binárias e contínuas). Estou bastante confiante de que seis das variáveis de previsão estão associadas à resposta binária, no entanto, gostaria de analisar melhor o conjunto de dados e procurar outras associações ou estruturas que possam estar faltando. Para fazer isso, decidi usar o PCA e o armazenamento em cluster.
Ao executar o PCA nos dados normalizados, é necessário manter 11 componentes para manter 85% da variação.
Ao traçar os gráficos de pares, recebo o seguinte:

Não sei ao certo o que vem a seguir ... Não vejo um padrão significativo no pca e estou me perguntando o que isso significa e se poderia ter sido causado pelo fato de algumas das variáveis serem binárias. Ao executar um algoritmo de clustering com 6 clusters, obtenho o seguinte resultado, que não é exatamente uma melhoria, embora alguns blobs pareçam se destacar (os amarelos).

Como você provavelmente pode perceber, não sou especialista em PCA, mas vi alguns tutoriais e como pode ser poderoso ter uma visão geral das estruturas no espaço de alta dimensão. Com o famoso conjunto de dados dígitos do MNIST (ou o IRIS), ele funciona muito bem. Minha pergunta é: o que devo fazer agora para dar mais sentido ao PCA? O armazenamento em cluster parece não pegar algo útil, como posso saber que não há padrão no PCA ou o que devo tentar em seguida para encontrar padrões nos dados do PCA?


