Aqui está um exemplo, se eu estivesse fazendo isso no mplus, o que poderia ser útil e complementar respostas mais abrangentes:
Digamos que eu tenho 3 variáveis contínuas e quero identificar clusters com base nelas. Eu especificaria um modelo de mistura (mais especificamente neste caso, um modelo de perfil latente), assumindo independência condicional (as variáveis observadas são independentes, dada a associação ao cluster) como:
Model:
%Overall%
v1* v2* v3*; ! Freely estimated variances
[v1 v2 v3]; ! Freely estimated means
Eu executaria esse modelo várias vezes, sempre especificando um número diferente de clusters, e escolheria a solução que eu mais gosto (fazer isso por si só é um vasto tópico).
Para executar o k-means, eu especificaria o seguinte modelo:
Model:
%Overall%
v1@0 v2@0 v3@0; ! Variances constrained as zero
[v1 v2 v3]; ! Freely estimated means
Portanto, a participação na turma é baseada apenas na distância das médias das variáveis observadas. Como afirmado em outras respostas, as variações não têm nada a ver com isso.
O bom de fazer isso no mplus é que esses são modelos aninhados e, portanto, você pode testar diretamente se as restrições resultam em pior ajuste ou não, além de poder comparar discordâncias na classificação entre os dois métodos. A propósito, ambos os modelos podem ser estimados usando um algoritmo EM, então a diferença é realmente mais sobre o modelo.
Se você pensa no espaço 3D, o 3 significa fazer um ponto ... e as variações nos três eixos de um elipsóide que atravessa esse ponto. Se todas as três variações forem iguais, você obteria uma esfera.