Qual é o nome dessa medida de correlação / associação entre variáveis binárias?

Existem várias medidas de associação (ou contingência ou correlação) entre duas variáveis aleatórias binárias e , entre outras $X$ $Y$

Pearson coeficiente phi
V de Cramér

Gostaria de saber como o seguinte número se relaciona a medidas conhecidas, se é estatisticamente interessante, e sob qual nome é (possivelmente) discutido: $\kappa$

κ = 1 - \frac{2}{N} | X △ Y |

$\kappa = 1 - \frac{2}{N}|X \triangle Y|$

com $|X \triangle Y|$ o número de amostras com propriedade $X$ ou propriedade $Y$ mas não ambas (OR exclusivo, diferença simétrica), $N$ o número total de amostras. Assim como o coeficiente phi, $\kappa = ± 1$ indica perfeita concordância ou desacordo e $\kappa = 0$ indica nenhuma relação

correlation binary-data association-measure

— Hans-Peter Stricker
fonte

Respostas:

Usando a convenção a, b, c, d da tabela de quatro dobras, como aqui ,

               Y
             1   0
            -------
        1  | a | b |
     X      -------
        0  | c | d |
            -------
a = number of cases on which both X and Y are 1
b = number of cases where X is 1 and Y is 0
c = number of cases where X is 0 and Y is 1
d = number of cases where X and Y are 0
a+b+c+d = n, the number of cases.

substituir e obter

$1-\frac{2(b+c)}{n} = \frac{n-2b-2c}{n} = \frac{(a+d)-(b+c)}{a+b+c+d}$ = coeficiente de similaridade de Hamann . Conheça aqui, por exemplo . Citar:

Medida de similaridade de Hamann. Essa medida fornece a probabilidade de que uma característica tenha o mesmo estado em ambos os itens (presente em ambos ou ausente de ambos) menos a probabilidade de uma característica ter estados diferentes nos dois itens (presente em um e ausente no outro). O HAMANN tem um intervalo de -1 a +1 e é monotonicamente relacionado à similaridade de correspondência simples (SM), similaridade 1 de Sokal & Sneath (SS1) e similaridade de Rogers & Tanimoto (RT).

Você pode comparar a fórmula de Hamann com a da correlação phi (mencionada), dada nos termos a, b, c, d. Ambos são medidas "correspondência" - que varia de -1 a 1. Mas olhar, numerador de Phi vai se aproximar de 1 apenas quando tanto a e d são grandes (ou mesmo modo -1, se ambos b e c são grandes): produto, você sabe ... Em outras palavras, a correlação de Pearson, e especialmente sua hipóstase de dados dicotômicos, Phi, é sensível à simetria das distribuições marginais nos dados. Numerador de Hamann , tendo somas em lugar de produtos, não é sensível a isso: tanto $ad-bc$ $(a+d)-(b+c)$ de dois summands em um par sendo grande é suficiente para que o coeficiente atinja perto de 1 (ou -1). Portanto, se você deseja uma medida de "correlação" (ou quase-correlação) desafiando a forma das distribuições marginais - escolha Hamann em vez de Phi.

Ilustração:

Crosstabulations:
        Y
X    7     1
     1     7
Phi = .75; Hamann = .75

        Y
X    4     1
     1    10
Phi = .71; Hamann = .75

— ttnphns
fonte

A similaridade de Hamann é amplamente conhecida e aceita como uma medida interessante?

— Hans-Peter Stricker

Como posso responder? Quanto amplamente / aceito será suficiente? :-) É certamente menos conhecido que a correlação phi ou a similaridade de Jaccard. Ainda assim, às vezes é usado. Pesquise no Google ... Uma de suas propriedades importantes é que é equivalente monotônico de ... (veja a citação).

— ttnphns

Desculpem a minha pergunta ingênua, e obrigado pela sua resposta informativa :-)

— Hans-Peter Stricker

Você pode me dar uma dica, sob quais circunstâncias típicas eu poderia querer uma "correlação desafiando a forma das distribuições marginais" e escolher Hamann e sob quais circunstâncias eu poderia querer uma "correlação NÃO desafiando a forma das distribuições marginais" e escolher Phi?

— Hans-Peter Stricker

Hans, se você está falando sobre campos ou objetivos científicos em que podemos querer usar um sobre o outro - por que não fazer isso como uma pergunta separada? Porque mais pessoas podem vir para responder.

— ttnphns

Hubalek, Z. Coeficientes de associação e similaridade, com base em dados binários (presença-ausência): uma avaliação (Biol. Rev., 1982) revisa e classifica 42 diferentes coeficientes de correlação para dados binários. Apenas três deles atendem a dados estatísticos básicos. Infelizmente, a questão da interpretação PRE (redução proporcional do erro) não é discutida. Para a seguinte tabela de contingência:

        present  absent

present    a       b

absent     c       d

a medida de associação $r$ deve cumprir as seguintes condições obrigatórias:

$r(J,K) \le r(J,J) \quad\forall J, K$
$\min(r)$ deve estar em $a = d = 0$ e $\max(r)$ às $b = c = 0$
$r(J,K) = r(K,J) \quad \forall K,J$
discriminação entre associação positiva e negativa
$r$ deve ser linear com $\sqrt{\chi^2}$ para ambos os subconjuntos $ad-bc < 0$ e $ad-bc >= 0$ (Observe que $\chi^2$ viole a condição 4)

e idealmente o seguinte não obrigatório:

alcance de $r$ deve ser $\left\{ -1 \dots +1 \right\}$ , $\left\{0 \dots +1 \right\}$ ou $\left\{0 \dots \infty \right\}$
$r(b=c=0) > r(b = 0 \veebar c = 0)$
$r(a=0) = min(r)$ (mais rígido que 2) acima)
$r(a+1)-r(a) = r(a+2)-r(a+1)$
$r(a=0,b,c,d), r(a=1,b-1,c-1,d+1), r(a=2,b-2,c-2,d+2)\ldots$ deve ser suave
distribuição homogênea de na amostra de permutação $r$
amostras aleatórias da população com : conhecidas devem mostrar pouca variabilidade, mesmo em amostras pequenas $a,b,c,d$ $r$
simplicidade de cálculo, baixo tempo de computador

Todas as condições são atendidas por Jaccard , Russel & Rao (ambos range ) e McConnaughey (range ) $\left( \frac{a}{a+b+c} \right)$ $\left( \frac{a} {a+b+c+d} \right)$ $\left\{0 \dots +1 \right\}$ $\left( \frac{a^2 - bc}{(a+b) \times (a+c)}\right)$ $\left\{ -1 \dots +1 \right\}$

— Engelbert Buxbaum
fonte

Isso seria mais fácil de ler se você pudesse editar para usar a notação . Eu faço uma pequena parte para mostrar como.

L A T E X

$\LaTeX$

— Kjetil b halvorsen

Mesclar suas duas respostas aqui: edite uma delas adicionando conteúdo à outra e exclua uma.

— ttnphns

por seus comandos ;-)

— Engelbert Buxbaum

Qual é o nome dessa medida de correlação / associação entre variáveis ​​binárias?

Qual é o nome dessa medida de correlação / associação entre variáveis binárias?