Até onde eu sei, a "média" de um cluster e o centróide de um único cluster são a mesma coisa, embora o termo "centróide" possa ser um pouco mais preciso do que "médio" ao lidar com dados multivariados.
Para encontrar o centróide, calcula-se a média (aritmética) das posições dos pontos separadamente para cada dimensão. Por exemplo, se você tiver pontos em:
- (-1, 10, 3),
- (0, 5, 2) e
- (1, 20, 10),
então o centróide estaria localizado em ((-1 + 0 + 1) / 3, (10 + 5 + 20) / 3, (3 + 2 + 10) / 3), o que simplifica (0, 11 2/3, 5) (Nota: o centróide não precisa ser - e raramente é --- um dos pontos de dados originais)
O centróide também é chamado de centro de massa ou baricentro, com base em sua interpretação física (é o centro de massa de um objeto definido pelos pontos). Como a média, a localização do centróide minimiza a distância ao quadrado da soma dos outros pontos.
Uma ideia relacionada é o medóide , que é o ponto de dados que é "menos diferente" de todos os outros pontos de dados. Ao contrário do centróide, o medóide deve ser um dos pontos originais. Você também pode estar interessado na mediana geométrica que é análoga à mediana, mas nos dados multivariados. Ambos são diferentes do centróide.
No entanto, como Gabe aponta em sua resposta , há uma diferença entre a "distância centróide" e a "distância média" ao comparar clusters. A distância do centróide entre o cluster e é simplesmente a distância entre e . A distância média é calculada encontrando a distância média por pares entre os pontos em cada cluster. Em outras palavras, para cada ponto no cluster , você calcula , , ...UMABcentróide ( A )centróide ( B )umaEuUMAdist ( aEu, b1 1)dist ( aEu, b2)dist ( aEu,bn) e avalie todos eles juntos.