Como o OP menciona, é possível resolver o k-médias usando a descida do gradiente, e isso pode ser útil no caso de problemas de grande escala.
Certamente, existem razões históricas para a prevalência de algoritmos no estilo EM para resolver médias k (ou seja, algoritmo de Lloyd). O algoritmo de Lloyd é tão popular que as pessoas às vezes o chamam de "o algoritmo k-means", e pode até desconhecer a existência de outras abordagens. Mas, essa popularidade não é imerecida.
Bottou e Bengio (1995) mostraram que o algoritmo de Lloyd é equivalente a otimizar a função de custo de k-médias usando o método de Newton. Em problemas gerais de otimização, métodos de segunda ordem, como o método de Newton, podem convergir mais rapidamente que métodos de primeira ordem, como descida em gradiente, porque exploram informações sobre a curvatura da função objetivo (e os métodos de primeira ordem não). Em um experimento no conhecido conjunto de dados Iris, eles mostraram que o algoritmo de Lloyd de fato converge mais rapidamente que a descida do gradiente. Seria interessante ver essa comparação em uma variedade mais ampla de conjuntos de dados.
Referências:
Bottou e Bengio (1995) . Propriedades de convergência dos algoritmos k-means.