Isso está em minha mente há pelo menos algumas horas. Eu estava tentando encontrar um k ideal para a saída do algoritmo k-means (com uma métrica de similaridade de cosseno ), então acabei plotando a distorção em função do número de clusters. Meu conjunto de dados é uma coleção de 800 documentos em um espaço de 600 dimensões.
Pelo que entendi, encontrar o ponto do joelho ou o cotovelo nessa curva deve indicar pelo menos aproximadamente o número de clusters nos quais preciso colocar meus dados. Coloquei o gráfico abaixo. O ponto em que a linha vertical vermelha foi traçada foi obtido usando o teste de segunda derivada máxima . Depois de fazer tudo isso, fiquei preso a algo muito mais simples: o que esse gráfico me diz sobre o conjunto de dados?
Isso me diz que não vale a pena agrupar e que meus documentos não têm estrutura ou que preciso definir um k muito alto? Uma coisa estranha é que, mesmo com baixo k, estou vendo documentos semelhantes sendo agrupados, por isso não sei por que estou conseguindo essa curva. Alguma ideia?
terms x document
obtida após a execução de um vetor singular decomposição. Por favor, corrija-me se eu estiver enganado.