Uma maneira é inspecionar manualmente os membros de seus clusters em busca de um k específico para ver se os agrupamentos fazem sentido (eles são distinguíveis?). Isso pode ser feito através de tabelas de contingência e meios condicionais. Faça isso para uma variedade de k e você pode determinar qual valor é apropriado.
Uma maneira menos subjetiva é usar o valor da silhueta:
/programming/18285434/how-do-i-choose-k-when-using-k-means-clustering-with-silhouette-function
Isso pode ser calculado com o seu pacote de software favorito. No link:
Este método apenas compara a semelhança intragrupo à semelhança de grupo mais próxima. Se qualquer distância média de um membro de dados para outros membros do mesmo cluster for maior que a distância média de alguns outros membros do cluster, esse valor será negativo e o armazenamento em cluster não será bem-sucedido. Por outro lado, valores de silhuette próximos a 1 indicam uma operação de cluster bem-sucedida. 0,5 não é uma medida exata para cluster.