O GMM usa colinas sobrepostas que se estendem até o infinito (mas praticamente contam apenas com 3 sigma). Cada ponto obtém todas as pontuações de probabilidade das colinas. Além disso, as colinas são "em forma de ovo" [ok, são elipses simétricas ] e, usando a matriz de covariância completa, podem ser inclinadas .
K-significa atribui um ponto a um único cluster, para que as pontuações dos outros centros de cluster sejam ignoradas (são implicitamente redefinidas para zero / não se importam). As colinas são bolhas de sabão esféricas. Onde duas bolhas de sabão tocam, o limite entre elas se torna um plano (hiper) plano. Assim como quando você sopra uma espuma de muitas bolhas de sabão, as bolhas no interior não são planas, mas são quadradas, então os limites entre muitas (hiper) esferas formam na verdade uma partição Voronoi do espaço. Em 2D, isso tende a parecer vagamente com empacotamento hexagonal, pense em uma colméia (embora, é claro, as células de Voronoi não sejam garantidas como hexágonos). Uma colina K-significa é redonda e não é inclinada, por isso tem menos poder de representação; mas é muito mais rápido calcular, especialmente nas dimensões mais altas.
Como o K-means usa a métrica de distância euclidiana, ele assume que as dimensões são comparáveis e têm o mesmo peso. Portanto, se a dimensão X tiver unidades de milhas por hora, variando de 0 a 80, e a dimensão Y tiver unidades de libras, variando de 0 a 400, e você estiver ajustando círculos neste espaço XY, então uma dimensão (e sua expansão) será mais poderoso que a outra dimensão e ofuscará os resultados. É por isso que é normal normalizar os dados ao usar K-means.
GMM e meios K modelam os dados ajustando as melhores aproximações ao que é dado. O GMM se encaixa em ovos inclinados, e K-means se encaixa em esferas inclinadas. Mas os dados subjacentes podem ter a forma de qualquer coisa, podem ser uma espiral ou uma pintura de Picasso, e cada algoritmo ainda é executado e faz o melhor possível. Se o modelo resultante se parece com os dados reais depende do processo físico subjacente que os gera. (Por exemplo, as medições de atraso de tempo são unilaterais; um gaussiano é um bom ajuste? Talvez.)
No entanto, GMM e meios K assumem implicitamente eixos / domínios de dados provenientes do campo de números reais Rn. Isso é importante com base no tipo de eixo / domínio de dados que você está tentando agrupar. O número inteiro ordenado é bem mapeado para reais. Símbolos ordenados, como cores em um espectro, não são tão agradáveis. Símbolos binários, ehn. Símbolos não ordenados não são mapeados para reais (a menos que você esteja usando uma nova matemática criativa desde 2000).
Assim, sua imagem binária de 8x8 será interpretada como um hipercubo de 64 dimensões no primeiro hipercalorante. Os algoritmos usam analogias geométricas para encontrar agrupamentos. A distância, com médias K, aparece como distância euclidiana no espaço 64-dimensional. É uma maneira de fazer isso.