Estou investigando várias técnicas usadas no agrupamento de documentos e gostaria de esclarecer algumas dúvidas sobre o PCA (análise de componentes principais) e LSA (análise semântica latente).
Primeira coisa - quais são as diferenças entre eles? Eu sei que no PCA, a decomposição de SVD é aplicada à matriz de covariância a termo, enquanto na LSA é a matriz de termo-documento. Mais alguma coisa?
Segundo - qual é o papel deles no procedimento de agrupamento de documentos? Pelo que li até agora, deduzo que o objetivo deles é reduzir a dimensionalidade, reduzir o ruído e incorporar as relações entre os termos na representação. Após a execução do PCA ou LSA, algoritmos tradicionais como meios-k ou métodos aglomerativos são aplicados no espaço de termo reduzido e medidas típicas de similaridade, como distância do cosseno, são usadas. Por favor me corrija se eu estiver errado.
Terceiro - importa se os vetores de termo TF / IDF são normalizados antes de aplicar PCA / LSA ou não? E eles devem ser normalizados novamente depois disso?
Quarto - digamos que eu realizei alguns agrupamentos no termo espaço reduzido pelo LSA / PCA. Agora, como devo atribuir rótulos aos clusters de resultados? Como as dimensões não correspondem às palavras reais, é uma questão difícil. A única idéia que me vem à mente é computar centróides para cada cluster usando vetores de termos originais e selecionando termos com pesos superiores, mas isso não parece muito eficiente. Existem algumas soluções específicas para esse problema? Não consegui encontrar nada.
Ficarei muito grato por esclarecer essas questões.