Para documentos de texto, os vetores de recursos podem ter dimensões muito altas e esparsos em qualquer uma das representações padrão (conjunto de palavras ou TF-IDF etc.). Medir distâncias diretamente sob essa representação pode não ser confiável, pois é sabido que, em dimensões muito altas, a distância entre dois pontos começa a parecer a mesma. Uma maneira de lidar com isso é reduzir a dimensionalidade dos dados usando PCA ou LSA ( Análise Semântica Latente ; também conhecida como Indexação Semântica Latente ) e depois medir as distâncias no novo espaço. Usar algo como LSA sobre PCA é vantajoso, pois pode fornecer uma representação significativa em termos de "conceitos semânticos", além de medir distâncias em um espaço dimensional inferior.
A comparação de documentos com base nas distribuições de probabilidade geralmente é feita computando primeiro a distribuição de tópicos de cada documento (usando algo como Alocação Latente de Dirichlet ) e depois calculando algum tipo de divergência (por exemplo, divergência de KL) entre as distribuições de tópicos de pares de documentos. De certa forma, é realmente parecido com fazer o LSA primeiro e depois medir distâncias no espaço do LSA usando a divergência de KL entre os vetores (em vez da semelhança de cosseno).
A divergência de KL é uma medida de distância para comparar distribuições; portanto, pode ser preferível que a representação do documento seja em termos de alguma distribuição (o que geralmente é o caso - por exemplo, documentos representados como distribuição sobre tópicos, como na LDA). Observe também que, nessa representação, as entradas no vetor de recurso somariam uma (já que você basicamente trata o documento como uma distribuição sobre tópicos ou conceitos semânticos).
Veja também um tópico relacionado aqui .