Antecedentes : quero classificar as áreas residenciais de uma cidade em grupos com base em suas características socioeconômicas, incluindo densidade de unidades habitacionais, densidade populacional, área de espaços verdes, preço da habitação, número de escolas / centros de saúde / creches, etc. Quero entender em quantos grupos diferentes as áreas residenciais podem ser divididas e quais são suas características únicas. Esta informação pode facilitar o planejamento da cidade.
Com base em alguns exemplos (cf., este post do blog: PCA e K-significa Clustering da Delta Aircraft ), descobri que a maneira de fazer a análise é:
Primeiro faça a análise PCA.
Determine o número de grupos únicos (clusters) com base nos resultados da PCA (por exemplo, usando o método "cotovelo" ou, alternativamente, o número de componentes que explica 80 a 90% da variação total).
Após determinar o número de clusters, aplique o cluster de k-means para fazer a classificação.
Minhas perguntas: parecia que o número de componentes do PCA está relacionado à análise de clusters. Isso é verdade, se, digamos, encontrarmos 5 componentes PCA explicados mais de 90% da variação de todos os recursos, aplicaríamos o cluster k-means e obteríamos 5 clusters. Então, os 5 grupos correspondiam exatamente aos 5 componentes na análise PCA?
Em outras palavras, acho que minha pergunta é: Qual é a conexão entre a análise PCA e o cluster de k-means?
Atualizações: Graças às entradas de Emre, xeon e Kirill. Portanto, as respostas atuais:
Fazer o PCA antes da análise de cluster também é útil para a redução da dimensionalidade como um extrator de recursos e para visualizar / revelar clusters.
A execução do PCA após o armazenamento em cluster pode validar o algoritmo de armazenamento em cluster (referência: análise de componentes principais do kernel ).
Às vezes, o PCA é aplicado para reduzir a dimensionalidade do conjunto de dados antes do armazenamento em cluster. No entanto, Yeung e Ruzzo (2000) mostraram que o agrupamento com os PCs em vez das variáveis originais não melhora necessariamente a qualidade do agrupamento. Em particular, os primeiros PCs (que contêm a maior parte da variação nos dados) não capturam necessariamente a maior parte da estrutura do cluster.
- Yeung, Ka Yee e Walter L. Ruzzo. Um estudo empírico na análise de componentes principais para agrupar dados de expressão gênica. Relatório técnico, Departamento de Ciência e Engenharia da Computação, Universidade de Washington, 2000. ( pdf )
Parecia que o PCA é necessário antes de uma análise de cluster em duas etapas . Baseado em Ibes (2015), no qual a análise de cluster foi realizada utilizando os fatores identificados no PCA.
- Ibes, Dorothy C. Uma classificação multidimensional e análise de eqüidade de um sistema de parques urbanos: uma nova metodologia e aplicação de estudo de caso. Landscape and Urban Planning , volume 137, maio de 2015, páginas 122–137.