Existe uma maneira de determinar quais recursos / variáveis do conjunto de dados são os mais importantes / dominantes em uma solução de cluster k-means?
Existe uma maneira de determinar quais recursos / variáveis do conjunto de dados são os mais importantes / dominantes em uma solução de cluster k-means?
Respostas:
Uma maneira de quantificar a utilidade de cada recurso (= variável = dimensão), do livro Burns, Robert P. e Richard Burns. Métodos de pesquisa de negócios e estatísticas usando o SPSS. Sage, 2008. ( espelho ), a utilidade sendo definida pelo poder discriminativo das características para diferenciar grupos.
Geralmente, examinamos as médias de cada cluster em cada dimensão usando a ANOVA para avaliar quão distintos são os nossos clusters. Idealmente, obteríamos meios significativamente diferentes para a maioria, senão todas as dimensões, usadas na análise. A magnitude dos valores F realizados em cada dimensão é uma indicação de quão bem a respectiva dimensão discrimina entre os clusters.
Outra maneira seria remover um recurso específico e ver como isso afeta os índices internos de qualidade . Diferentemente da primeira solução, você teria que refazer o clustering para cada recurso (ou conjunto de recursos) que deseja analisar.
PARA SUA INFORMAÇÃO:
Posso pensar em duas outras possibilidades que se concentram mais em quais variáveis são importantes para quais clusters.
Classificação multi-classe. Considere os objetos que pertencem ao cluster x membros da mesma classe (por exemplo, classe 1) e os objetos que pertencem a outros clusters membros de uma segunda classe (por exemplo, classe 2). Treine um classificador para prever a associação (por exemplo, classe 1 vs. classe 2). Os coeficientes de variável do classificador podem servir para estimar a importância de cada variável em objetos de cluster para o cluster x . Repita essa abordagem para todos os outros clusters.
Semelhança de variável intra-cluster. Para cada variável, calcule a semelhança média de cada objeto com seu centróide. Uma variável que possui alta similaridade entre um centróide e seus objetos provavelmente é mais importante para o processo de agrupamento do que uma variável que possui baixa similaridade. Obviamente, a magnitude da similaridade é relativa, mas agora as variáveis podem ser classificadas pelo grau em que ajudam a agrupar os objetos em cada cluster.