Existem muitos desses coeficientes (a maioria é expressa aqui ). Apenas tente meditar sobre quais são as consequências das diferenças nas fórmulas, especialmente quando você calcula uma matriz de coeficientes.
Imagine, por exemplo, que os objetos 1 e 2 semelhantes, como os objetos 3 e 4 são. Mas 1 e 2 têm muitos dos atributos na lista, enquanto 3 e 4 têm apenas alguns atributos. Nesse caso, Russell-Rao (proporção de co-atributos para o número total de atributos em consideração) será alto para o par 1-2 e baixo para o par 3-4. Mas Jaccard (proporção de co-atributos para o número combinado de atributos que ambos os objetos têm = probabilidade de que, se um objeto tem um atributo, então ambos o têm) será alto para os pares 1-2 e 3-4.
Esse ajuste para o nível básico de "saturação por atributos" torna Jaccard tão popular e mais útil que Russell-Rao , por exemplo, na análise de cluster ou na escala multidimensional. De certo modo, você pode refinar ainda mais o ajuste acima, selecionando a medida Kulczynski-2 , que é a probabilidade média aritmética de que, se um objeto tem um atributo, o outro objeto também:
(aa+b+aa+c)/2
Aqui, a base (ou campo) de atributos para os dois objetos não é agrupada, como em Jaccard, mas é própria para cada um dos dois objetos. Conseqüentemente, se os objetos diferem muito no número de atributos que possuem, e todos os seus atributos o objeto "mais pobre" compartilha com o "mais rico", Kulczynski será alto, enquanto Jaccard será moderado.
Ou você pode preferir calcular a probabilidade média geométrica de que, se um objeto tem um atributo, o outro objeto também, o que produz a medida Ochiai :
Como o produto aumenta mais que a soma quando apenas um dos termos cresce, Ochiai será realmente alto apenas se as duas proporções (probabilidades) forem altas, o que implica que, para ser considerado similar por Ochiai, os objetos devem compartilhar o grande ações de seus atributos. Em resumo, Ochiai reduz a semelhança se e forem desiguais. Ochiai é de fato a medida de similaridade do cosseno (e Russell-Rao é a similaridade do produto escalar).
aa+baa+c−−−−−−−−−√
bc
PS
É apenas porque, para alguns conjuntos de dados, a ausência simultânea de ambos os atributos (d) não transmite nenhuma informação?
Falando em medidas de similaridade, não se deve misturar atributos dicotômicos nominais (por exemplo, feminino, masculino) com atributos binários (presente versus ausente). O atributo binário não é simétrico (em geral); se você e eu compartilhamos uma característica, é a base para nos chamar de semelhantes; se você e eu perdermos a característica, ela pode ou não ser considerada evidência de similaridade, dependendo do contexto do estudo. Portanto, o tratamento divergente de é possível.d
Observe também que se você deseja calcular a similaridade entre objetos com base em mais de 1 atributo nominal (dicotômico ou politômico), recodifique cada uma dessas variáveis no conjunto de variáveis binárias fictícias. A medida de similaridade recomendada para o cálculo será Dice ( que , quando calculado para mais de 1 conjunto de variáveis dummy, é equivalente a Ochiai e Kulczynski-2).