Minha pergunta pode ser tola. Então, peço desculpas antecipadamente.
Eu estava tentando usar o modelo GLOVE pré-treinado pelo grupo da PNL de Stanford ( link ). No entanto, notei que meus resultados de similaridade mostraram alguns números negativos.
Isso imediatamente me levou a olhar para o arquivo de dados vetoriais de palavras. Aparentemente, os valores nos vetores de palavras foram negativos. Isso explicava por que vi semelhanças negativas no cosseno.
Estou acostumado ao conceito de similaridade de cosseno de vetores de frequência, cujos valores são delimitados em [0, 1]. Eu sei que o produto escalar e a função cosseno podem ser positivos ou negativos, dependendo do ângulo entre os vetores. Mas eu realmente tenho dificuldade em entender e interpretar essa similaridade negativa do cosseno.
Por exemplo, se eu tenho um par de palavras que dão similaridade de -0,1, elas são menos semelhantes que outro par cuja similaridade é 0,05? Que tal comparar semelhança de -0,9 a 0,8?
Ou devo apenas olhar para o valor absoluto da diferença mínima de ângulo de ? Valor absoluto das pontuações?
Muitíssimo obrigado.
An angular-type similarity coefficient between two vectors. It is like correlation, only without centering the vectors.
A única diferença entre os dois é que os desvios de correlação (momentos) - que estão sendo multiplicados cruzadamente - são da média, enquanto que os desvios de cosseno são do 0 original - ou seja, são os valores como são. .