Se você dividir a amostra aleatoriamente em 5 subamostras, suas 5 médias quase coincidirão. Qual é o sentido de fazer desses pontos de fechamento os centros iniciais do cluster?
Em muitas implementações K-means, a seleção padrão dos centros de cluster iniciais é baseada na idéia oposta: encontrar os 5 pontos mais distantes e torná-los os centros iniciais. Você pode perguntar qual pode ser o caminho para encontrar esses pontos distantes? Aqui está o que o K-means do SPSS está fazendo para isso:
Tome todos os k casos (pontos) do conjunto de dados como os centros iniciais. Todos os demais casos estão sendo verificados quanto à capacidade de substituí-los como centros iniciais, pelas seguintes condições:
- a) Se o estojo estiver mais distante do centro mais próximo dele do que a distância entre os dois centros mais próximos um do outro, o estojo substituirá o centro dos dois últimos últimos ao qual está mais próximo.
- b) Se o estojo estiver mais distante do centro 2º mais próximo do que a distância entre o centro mais próximo e o centro mais próximo deste último, o estojo substituirá o centro mais próximo.
Se a condição (a) não for satisfeita, a condição (b) é verificada; se não estiver satisfeito, o caso não se tornará um centro. Como resultado de tais casos, obtemos k casos máximos na nuvem que se tornam os centros iniciais. O resultado desse algo, embora robusto o suficiente, não é totalmente insensível à escolha inicial de "qualquer k casos" e à ordem de classificação dos casos no conjunto de dados; portanto, várias tentativas aleatórias de inicialização ainda são bem-vindas, como é sempre o caso com K-means.
Veja minha resposta com uma lista de métodos populares de inicialização para k-means. O método de divisão em subamostras aleatórias (criticadas por mim e por outras pessoas), bem como o método descrito usado pelo SPSS - também estão na lista.