Usando a convenção a, b, c, d da tabela de quatro dobras, como aqui ,
Y
1 0
-------
1 | a | b |
X -------
0 | c | d |
-------
a = number of cases on which both X and Y are 1
b = number of cases where X is 1 and Y is 0
c = number of cases where X is 0 and Y is 1
d = number of cases where X and Y are 0
a+b+c+d = n, the number of cases.
substituir e obter
1−2(b+c)n=n−2b−2cn=(a+d)−(b+c)a+b+c+d = coeficiente de similaridade de Hamann . Conheça aqui, por exemplo . Citar:
Medida de similaridade de Hamann. Essa medida fornece a probabilidade de que uma característica tenha o mesmo estado em ambos os itens (presente em ambos ou ausente de ambos) menos a probabilidade de uma característica ter estados diferentes nos dois itens (presente em um e ausente no outro). O HAMANN tem um intervalo de -1 a +1 e é monotonicamente relacionado à similaridade de correspondência simples (SM), similaridade 1 de Sokal & Sneath (SS1) e similaridade de Rogers & Tanimoto (RT).
Você pode comparar a fórmula de Hamann com a da correlação phi (mencionada), dada nos termos a, b, c, d. Ambos são medidas "correspondência" - que varia de -1 a 1. Mas olhar, numerador de Phi vai se aproximar de 1 apenas quando tanto a e d são grandes (ou mesmo modo -1, se ambos b e c são grandes): produto, você sabe ... Em outras palavras, a correlação de Pearson, e especialmente sua hipóstase de dados dicotômicos, Phi, é sensível à simetria das distribuições marginais nos dados. Numerador de Hamann , tendo somas em lugar de produtos, não é sensível a isso: tantoad−bc(a+d)−(b+c)de dois summands em um par sendo grande é suficiente para que o coeficiente atinja perto de 1 (ou -1). Portanto, se você deseja uma medida de "correlação" (ou quase-correlação) desafiando a forma das distribuições marginais - escolha Hamann em vez de Phi.
Ilustração:
Crosstabulations:
Y
X 7 1
1 7
Phi = .75; Hamann = .75
Y
X 4 1
1 10
Phi = .71; Hamann = .75