A similaridade de Jaccard é dada por
seu j= pp + q+ r
Onde,
p = número de atributos positivos para ambos os objetos
q = número de atributos 1 para ie 0 para j
r = número de atributos 0 para ie 1 para j
Considerando que, semelhança de cosseno = onde A e B são vetores de objetos.A ⋅ B∥ A ∥ ∥ B ∥
Simplificando, em semelhança de cosseno, o número de atributos comuns é dividido pelo número total de atributos possíveis. Enquanto em Jaccard Similarity, o número de atributos comuns é dividido pelo número de atributos que existem em pelo menos um dos dois objetos.
E há muitas outras medidas de similaridade, cada uma com suas próprias excentricidades. Ao decidir qual usar, tente pensar em alguns casos representativos e descobrir qual índice daria os resultados mais úteis para alcançar seu objetivo.
O índice Cosine poderia ser usado para identificar plágio, mas não será um bom índice para identificar sites-espelho na Internet. Considerando que o índice Jaccard, será um bom índice para identificar sites espelhos, mas não tão bom em captar plágio de massas de cópia (dentro de um documento maior).
Ao aplicar esses índices, você deve pensar bem no seu problema e descobrir como definir semelhança. Depois de ter uma definição em mente, você poderá comprar um índice.
Edit:
Anteriormente, eu tinha um exemplo incluído nesta resposta, que estava incorreto. Graças aos vários usuários que apontaram isso, removi o exemplo incorreto.