Idêntico significado, que irá produzir resultados idênticos para uma similaridade entre um Classificação do vetor u e um conjunto de vectores V .
Eu tenho um modelo de espaço vetorial que tem como medida a distância (distância euclidiana, semelhança de cosseno) e a técnica de normalização (nenhuma, l1, l2). Pelo meu entendimento, os resultados das configurações [cosseno, nenhum] devem ser idênticos ou pelo menos realmente muito semelhantes a [euclidiano, l2], mas não são.
Na verdade, há uma boa chance de o sistema ainda estar com erros - ou tenho algo crítico errado sobre vetores?
edit: esqueci de mencionar que os vetores são baseados na contagem de palavras de documentos em um corpus. Dado um documento de consulta (que também transformamos em um vetor de contagem de palavras), desejo encontrar o documento do meu corpus que seja o mais semelhante a ele.
Apenas calcular sua distância euclidiana é uma medida direta, mas no tipo de tarefa em que trabalho, a similaridade de cosseno é frequentemente preferida como um indicador de similaridade, porque vetores que apenas diferem em comprimento ainda são considerados iguais. O documento com a menor semelhança distância / cosseno é considerado o mais semelhante.