Relação entre os coeficientes de correlação phi, Matthews e Pearson

13

Os coeficientes de correlação phi e Matthews são o mesmo conceito? Como eles estão relacionados ou equivalentes ao coeficiente de correlação de Pearson para duas variáveis binárias? Presumo que os valores binários sejam 0 e 1.

A correlação de Pearson entre duas variáveis aleatórias de Bernoulli e é: $x$ $y$

ρ = \frac{E [(x - E [x]) (y - E [y])]}{\sqrt{Var [x] Var [y]}} = \frac{E [x y] - E [x] E [y]}{\sqrt{Var [x] Var [y]}} = \frac{n_{11} n - n_{1 ∙} n_{∙ 1}}{\sqrt{n_{0 ∙} n_{1 ∙} n_{∙ 0} n_{∙ 1}}}

$\rho = \frac{\mathbb{E} [(x - \mathbb{E}[x])(y - \mathbb{E}[y])]} {\sqrt{\text{Var}[x] \, \text{Var}[y]}} = \frac{\mathbb{E} [xy] - \mathbb{E}[x] \, \mathbb{E}[y]}{\sqrt{\text{Var}[x] \, \text{Var}[y]}} = \frac{n_{1 1} n - n_{1\bullet} n_{\bullet 1}}{\sqrt{n_{0\bullet}n_{1\bullet} n_{\bullet 0}n_{\bullet 1}}}$

Onde

E [x] = \frac{n_{1 ∙}}{n} Var [x] = \frac{n_{0 ∙} n_{1 ∙}}{n^{2}} E [y] = \frac{n_{∙ 1}}{n} Var [y] = \frac{n_{∙ 0} n_{∙ 1}}{n^{2}} E [x y] = \frac{n_{11}}{n}

$\mathbb{E}[x] = \frac{n_{1\bullet}}{n} \quad \text{Var}[x] = \frac{n_{0\bullet}n_{1\bullet}}{n^2} \quad \mathbb{E}[y] = \frac{n_{\bullet 1}}{n} \quad \text{Var}[y] = \frac{n_{\bullet 0}n_{\bullet 1}}{n^2} \quad \mathbb{E}[xy] = \frac{n_{11}}{n}$

Coeficiente de phi da Wikipedia:

Nas estatísticas, o coeficiente phi (também chamado de "coeficiente de contingência quadrado médio" e denotado por ou ) é uma medida de associação para duas variáveis binárias introduzidas por Karl Pearson. Essa medida é semelhante ao coeficiente de correlação de Pearson em sua interpretação. De fato, um coeficiente de correlação de Pearson estimado para duas variáveis binárias retornará o coeficiente phi ... $\phi$ $r_\phi$

Se tivermos uma tabela 2 × 2 para duas variáveis aleatórias e $x$ $y$

O coeficiente phi que descreve a associação de e é $x$ $y$
$ϕ = \frac{n_{11} n_{00} - n_{10} n_{01}}{\sqrt{n_{1 ∙} n_{0 ∙} n_{∙ 0} n_{∙ 1}}}$ $\phi = \frac{n_{11}n_{00} - n_{10}n_{01}}{\sqrt{n_{1\bullet}n_{0\bullet}n_{\bullet0}n_{\bullet1}}}$

Coeficiente de correlação de Matthews da Wikipedia:

O coeficiente de correlação de Matthews (MCC) pode ser calculado diretamente da matriz de confusão usando a fórmula:
$MCC = \frac{T P \times T N - F P \times F N}{\sqrt{(T P + F P) (T P + F N) (T N + F P) (T N + F N)}}$ $\text{MCC} = \frac{ TP \times TN - FP \times FN } {\sqrt{ (TP + FP) (TP + FN) (TN + FP) (TN + FN) } }$
Nesta equação, TP é o número de verdadeiros positivos, TN o número de verdadeiros negativos, FP o número de falsos positivos e FN o número de falsos negativos. Se qualquer uma das quatro somas no denominador for zero, o denominador poderá ser arbitrariamente definido como um; isso resulta em um coeficiente de correlação de Matthews igual a zero, que pode ser mostrado como o valor limite correto.

— Tim
fonte

14

Sim, eles são iguais. O coeficiente de correlação de Matthews é apenas uma aplicação específica do coeficiente de correlação de Pearson a uma tabela de confusão.

Uma tabela de contingência é apenas um resumo dos dados subjacentes. Você pode convertê-lo novamente das contagens mostradas na tabela de contingência para uma linha por observação.

Considere o exemplo de matriz de confusão usada no artigo da Wikipedia com 5 verdadeiros positivos, 17 verdadeiros negativos, 2 falsos positivos e 3 falsos negativos

> matrix(c(5,3,2,17), nrow=2, byrow=TRUE)
     [,1] [,2]
[1,]    5    3
[2,]    2   17
> 
> # Matthews correlation coefficient directly from the Wikipedia formula
> (5*17-3*2) / sqrt((5+3)*(5+2)*(17+3)*(17+2))
[1] 0.5415534
> 
> 
> # Convert this into a long form binary variable and find the correlation coefficient
> conf.m <- data.frame(
+ X1=rep(c(0,1,0,1), c(5,3,2,17)),
+ X2=rep(c(0,0,1,1), c(5,3,2,17)))
> conf.m # what does that look like?
   X1 X2
1   0  0
2   0  0
3   0  0
4   0  0
5   0  0
6   1  0
7   1  0
8   1  0
9   0  1
10  0  1
11  1  1
12  1  1
13  1  1
14  1  1
15  1  1
16  1  1
17  1  1
18  1  1
19  1  1
20  1  1
21  1  1
22  1  1
23  1  1
24  1  1
25  1  1
26  1  1
27  1  1
> cor(conf.m)
          X1        X2
X1 1.0000000 0.5415534
X2 0.5415534 1.0000000

— Peter Ellis
fonte

Obrigado Peter! Matematicamente, por que phi e Mathew equivalem a Pearson para duas variáveis aleatórias binárias?

— Tim

Se você pegar a definição da correlação de Pearson e manipulá-la, ela se refere a contagens, e não a somas das diferenças entre observações individuais e os meios, obtém a fórmula de Matthews. Na verdade, não fiz isso, mas deve ser razoavelmente direto.

— 22613 Peter Ellis

2

$\mathbb{E}[xy]$ $\displaystyle \frac{n_{\bullet 1}n_{1\bullet}}{n^2}$

\frac{n_{11}}{n} \times 1 \times 1 + \frac{n_{10}}{n} \times 1 \times 0 0 + \frac{n_{01}}{n} \times 0 0 \times 1 + \frac{n_{00}}{n} \times 0 0 \times 0 0 = \frac{n_{11}}{n}

$\frac{n_{11}}{n} \times 1 \times 1 + \frac{n_{10}}{n}\times 1 \times 0 + \frac{n_{01}}{n} \times 0 \times 1 + \frac{n_{00}}{n} \times 0 \times 0 = \frac{n_{11}}{n}$

$\rho = \phi$

n_{11} n - n_{1 ∙} n_{∙ 1} = n_{11} (n_{01} + n_{10} + n_{11} + n_{00}) - (n_{11} + n_{10}) (n_{11} + n_{01}) = n_{11} n_{00} - n_{10} n_{01}

$n_{11} n - n_{1\bullet} n_{\bullet 1} = n_{11} (n_{01} + n_{10} + n_{11} + n_{00}) - (n_{11} + n_{10}) (n_{11} + n_{01}) \\ = n_{11} n_{00} - n_{10} n_{01}$

— ryan tt
fonte