O que significa ss total e entre ss no cluster k-means?

Eu sou muito novo na análise de cluster. Eu estou usando R para k-significa cluster e me pergunto o que são essas coisas. E o que é melhor se a proporção for menor ou maior?

clustering

— Kanbhold
fonte

É basicamente uma medida da bondade da classificação que k-means encontrou. SS obviamente significa Sum of Squares, então é a decomposição usual de desvio no desvio "Entre" e desvio "Dentro". Idealmente, você deseja um cluster com propriedades de coesão interna e separação externa, ou seja, a relação BSS / TSS deve se aproximar de 1.

Por exemplo, em R:

data(iris)
km <- kmeans(iris[,1:4], 3)

fornece uma relação BSS / TSS de 88,4% (0,884), indicando um bom ajuste. Você deve ser cuidadoso, e geralmente é uma boa idéia plotar o WSS em relação ao número de cluster, pois esse número deve ser especificado com antecedência.

— lambda_vu
fonte