Estou tentando executar o cluster no nível do documento. Eu construí a matriz de frequência termo-documento e estou tentando agrupar esses vetores de alta dimensão usando k-means. Em vez de agrupar diretamente, o que eu fiz foi aplicar primeiro a decomposição de vetor singular do LSA (Latent Semantic Analysis) para obter as matrizes U, S, Vt, selecionou um limite adequado usando o gráfico scree e aplicou o agrupamento nas matrizes reduzidas (especificamente Vt porque isso me dá uma informação de documento conceitual) que parecia estar me dando bons resultados.
Ouvi algumas pessoas dizerem que SVD (decomposição de vetor singular) está agrupando (usando a medida de similaridade de cosseno etc.) e não tinha certeza se eu poderia aplicar k-means na saída de SVD. Eu pensei que era logicamente correto, porque SVD é uma técnica de redução de dimensionalidade, me dá um monte de novos vetores. Por outro lado, k-significa tomará o número de clusters como entrada e dividirá esses vetores no número especificado de clusters. Esse procedimento é defeituoso ou existem maneiras de melhorar isso? Alguma sugestão?