Eu estou olhando para fazer k-significa agrupar em um conjunto de 10 pontos dimensionais. O problema: há 10 ^ 10 pontos .
Estou procurando apenas o centro e o tamanho dos maiores aglomerados (digamos 10 a 100); Não me importo com o cluster em que cada ponto termina. Usar k-means especificamente não é importante; Estou apenas procurando um efeito semelhante, qualquer k-mean aproximado ou algoritmo relacionado seria ótimo (minibatch-SGD significa, ...). Como o GMM é, de certo modo, o mesmo problema que o k-means, fazer GMM com os mesmos dados de tamanho também é interessante.
Nesta escala, a subamostragem dos dados provavelmente não altera o resultado significativamente: as chances de encontrar os mesmos 10 principais clusters usando uma amostra de 1/10000 dos dados são muito boas. Mas, mesmo assim, esse é um problema de 10 ^ 6 pontos que está na / além da borda do tratável.