Eu tenho um algoritmo de cluster (não k-means) com o parâmetro de entrada (número de clusters). Após executar o cluster, eu gostaria de obter uma medida quantitativa da qualidade desse cluster. O algoritmo de clustering tem uma propriedade importante. Para se eu alimentar pontos de dados sem nenhuma distinção significativa entre eles para esse algoritmo, obteremos um cluster contendo pontos de dados e um cluster com ponto de dados. Obviamente, não é isso que eu quero. Então, eu quero calcular essa medida de qualidade para estimar a razoabilidade desse cluster. Idealmente, poderei comparar essas medidas para diferentes . Então, executarei o clustering no intervalo dek = 2 N N - 1 1 k ke escolha aquele com a melhor qualidade. Como faço para calcular essa medida de qualidade?
ATUALIZAR:
Aqui está um exemplo quando é um cluster ruim. Digamos que existem 3 pontos em um plano formando triângulo equilátero. Dividir esses pontos em 2 grupos é obviamente pior do que dividi-los em 1 ou 3 grupos.