Como não tenho experiência no setor de mineração de dados ou big data, gostaria de ouvi-lo compartilhar alguma experiência.
As pessoas realmente executam k-means, PAM, CLARA etc. em um conjunto de dados realmente grande? Ou eles apenas escolhem aleatoriamente uma amostra? Se eles coletassem apenas uma amostra do conjunto de dados, o resultado seria confiável se o conjunto de dados não fosse normalmente distribuído?
Em situações práticas ao executar esses algoritmos, podemos dizer quantas iterações seriam necessárias normalmente até ocorrer a convergência? Ou o número de iterações sempre aumenta com o tamanho dos dados?
Estou perguntando isso porque estou pensando em desenvolver uma abordagem para finalizar os algoritmos iterativos antes da convergência, e ainda assim os resultados ainda são aceitáveis. Acho que vale a pena tentar se o número de iterações for, digamos, mais de 1.000, para que possamos economizar algum tempo e custo computacional. O que você acha?
number of iterations always grow with the data size
Não necessariamente.