Estou usando a indexação semântica latente para encontrar semelhanças entre documentos ( obrigado, JMS! )
Após a redução da dimensão, tentei o agrupamento k-means para agrupar os documentos em clusters, o que funciona muito bem. Mas eu gostaria de ir um pouco mais longe e visualizar os documentos como um conjunto de nós, em que a distância entre dois nós é inversamente proporcional à sua semelhança (nós altamente semelhantes são próximos).
Parece-me que não posso reduzir com precisão uma matriz de similaridade a um gráfico bidimensional, pois meus dados são> 2 dimensões. Então, minha primeira pergunta: existe uma maneira padrão de fazer isso?
Eu poderia apenas reduzir meus dados para duas dimensões e depois plotá-los como os eixos X e Y, e isso seria suficiente para um grupo de ~ 100-200 documentos? Se essa é a solução, é melhor reduzir meus dados para duas dimensões desde o início ou existe alguma maneira de escolher as duas "melhores" dimensões dos meus dados multidimensionais?
Estou usando Python e a biblioteca gensim, se isso faz alguma diferença.