Costumo enfrentar a questão de ter que escolher um número de clusters. A partição que acabo escolhendo é mais frequentemente baseada em preocupações visuais e teóricas do que em critérios de qualidade.
Eu tenho duas perguntas principais.
O primeiro diz respeito à idéia geral de qualidade dos clusters. Pelo que entendi, critérios como o "cotovelo" estão sugerindo um valor ótimo em referência a uma função de custo. A questão que tenho com essa estrutura é que o critério ideal é cego para a consideração teórica, de modo que há algum grau de complexidade (relacionado ao seu campo de estudo) que sempre seria desejável em seus grupos / grupos finais.
Além disso, conforme explicado aqui, o valor ideal também está relacionado a restrições de "objetivo a jusante" (como restrições econômicas), portanto, considere o que você fará com as questões de agrupamento.
Uma restrição, obviamente, que a pessoa enfrenta é encontrar clusters significativos / interpretáveis, e quanto mais clusters você tiver, mais difícil será interpretá-los.
Mas nem sempre é esse o caso, muitas vezes acho que 8, 10 ou 12 clusters são o número mínimo "interessante" de clusters que gostaria de ter em minha análise.
No entanto, muitas vezes critérios como o cotovelo sugerem muito menos aglomerados, geralmente 2,3 ou 4.
Q1 . O que eu gostaria de saber é qual é a melhor linha de argumento quando você decide escolher mais clusters do que a solução proposta por um determinado critério (como o cotovelo). Intuitivamente, quanto mais sempre deve ser melhor quando não há restrições (como a inteligibilidade dos grupos que você recebe ou no exemplo do Coursera, quando você tem uma quantia muito grande). Como você argumentaria isso em um artigo de revista científica?
Outra maneira de dizer isso é dizer que, depois de identificar o número mínimo de clusters (com esses critérios), você deve justificar por que escolheu mais clusters do que isso? A justificativa não deveria vir apenas ao escolher a quantidade mínima significativa de clusters?
Q2 . De maneira semelhante, não entendo como certas medidas de qualidade, como a silhueta, podem realmente diminuir à medida que o número de clusters aumenta. Não vejo na silhueta uma penalização pelo número de clusters, então como pode ser isso? Teoricamente, quanto mais clusters você tiver, maior será a qualidade do cluster .
# R code
library(factoextra)
data("iris")
ir = iris[,-5]
# Hierarchical Clustering, Ward.D
# 5 clusters
ec5 = eclust(ir, FUNcluster = 'hclust', hc_metric = 'euclidean',
hc_method = 'ward.D', graph = T, k = 5)
# 20 clusters
ec20 = eclust(ir, FUNcluster = 'hclust', hc_metric = 'euclidean',
hc_method = 'ward.D', graph = T, k = 20)
a = fviz_silhouette(ec5) # silhouette plot
b = fviz_silhouette(ec20) # silhouette plot
c = fviz_cluster(ec5) # scatter plot
d = fviz_cluster(ec20) # scatter plot
grid.arrange(a,b,c,d)
Theoretically, the more clusters you have, the greater is the cluster quality
Absolutamente não, não necessariamente. A maioria dos critérios internos de agrupamento (incluindo o índice de silhueta) é "normalizado" ou calibrado em sua fórmula, com o objetivo de tentar ser extremo no (s) melhor (s) número (s) de agrupamentos k, de modo que k seja menor ou maior que esse número produzirá um valor de critério mais baixo. O critério "Elbow SSw" não é normalizado de qualquer maneira, e é ruim, não vale a pena considerar; use Clinski-Harabasz ou Davies-Bouldin em suas normalizações.
what is the best line of argument when you decide to choose more clusters rather than the solution proposed by a certain criteria
Se você ler minhas facetas no link acima, entenderá que não pode haver argumentos melhores nem sintetizados . Afinal, o melhor argumento (para um k menor ou maior) é sua capacidade de persuasão para você ou para o público. A decisão humana não se baseia em argumentos, é arbitrária; argumentar é explicar , desculpar o que nunca pode ser desculpado.