Por definição, os kmeans devem garantir que o cluster ao qual um ponto está alocado tenha o centróide mais próximo. Portanto, a probabilidade de estar no cluster não é realmente bem definida.
Conforme mencionado, o cluster do GMM-EM fornece uma estimativa de probabilidade de estar em cada cluster e é claramente uma opção.
No entanto, se você deseja permanecer na construção esférica de k-means, provavelmente poderá usar uma suposição / formulação mais simples se desejar atribuir alguma "pontuação de bondade" ao agrupamento de cada ponto. Isso pode ser útil caso você esteja amostrando um subconjunto da população e queira determinar quanto confiar no cluster designado a cada ponto da amostra.
Um esquema simples de "pontuação" poderia ser o primeiro a calcular a distância do escore z do SQRT em todas as dimensões usadas no agrupamento para cada um dos k centróides. Então assumindod1 1 para dk para cada um dos k-centróides, você pode atribuir a pontuação
score =1 1dEu( n - 1 )/∑i = 1k1 1dEu( n - 1 )
Onde n é o número de dimensões usadas para armazenamento em cluster.
Porque isso ( n - 1 )th power on 1 1d? Pense no que acontece no espaço tridimensional com Gravidade ou Eletromagnetismo, onde a intensidade se dissipa pela distância ao quadrado. Da mesma forma, k-means cria aglomerados esféricos em n dimensões. Portanto, se você considerar cada um dos centróides do cluster como fontes pontuais de "energia", ele se dissipará à medida que d aumenta d para a( n - 1 )poder th. Como resultado, em qualquer ponto aleatório, a intensidade de "energia" proveniente de qualquer centróide de cluster é proporcional a1 1dEu( n - 1 ) Onde dEué a distância do centróide. Portanto, você pode calcular essa pontuação de bondade que varia entre 0 e 1 e ter uma idéia de quão "confuso" o algoritmo k-means é para qualquer ponto com base nas dimensões e na estrutura do seu problema em questão.