Eu tenho que reduzir o número de variáveis para realizar uma análise de cluster. Minhas variáveis estão fortemente correlacionadas, então pensei em fazer uma Análise Fatorial PCA (análise de componentes principais). No entanto, se eu usar as pontuações resultantes, meus clusters não estão muito corretos (em comparação com classificações anteriores na literatura).
Questão:
Posso usar a matriz de rotação para selecionar as variáveis com as maiores cargas para cada componente / fator e usar apenas essas variáveis no meu clustering?
Qualquer referência bibliográfica também seria útil.
Atualizar:
Alguns esclarecimentos:
Meu objetivo: eu tenho que executar uma análise de clusters com o algoritmo de duas etapas do SPSS, mas minhas variáveis não são independentes, então pensei em descartar algumas delas.
Minha dúvida: como eu só preciso de variáveis independentes, pensei em executar uma Análise de Componente Principal (desculpe: eu falei errado sobre Análise Fatorial na minha pergunta original, meu erro) e selecione apenas as variáveis com maiores cargas para cada componente. Sei que o processo PCA apresenta algumas etapas arbitrárias, mas descobri que essa seleção é realmente semelhante ao " método B4 " proposto por IT Jolliffe (1972 e 2002) para selecionar variáveis e sugerido também por JR King & DA Jackson em 1999 .
Então, eu estava pensando em selecionar dessa maneira alguns subgrupos de variáveis independentes. Usarei os grupos para executar diferentes análises de cluster e compararei os resultados.