Primeiro, vamos tentar definir a área sob a curva ROC formalmente. Algumas suposições e definições:
Temos um classificador probabilístico que gera uma "pontuação" s (x), onde x são as características es é uma função monotônica crescente genérica da probabilidade estimada p (classe = 1 | x).
, com k = { 0 , 1 } : = pdf das pontuações para a classe k, com CDF F k ( s )fk(s)k={0,1}Fk(s)
A classificação de uma nova observação é obtida comprando a pontuação s para um limiar t
Além disso, por conveniência matemática, vamos considerar a classe positiva (evento detectado) k = 0 e negativa k = 1. Nesta configuração, podemos definir:
- Lembre-se (aka Sensitivity, aka TPR) : (proporção de casos positivos classificados como positivos)F0(t)
- Especificidade (também conhecida como TNR) : (proporção de casos negativos classificados como negativos)1−F1(t)
- FPR (também conhecido como Fall-out) : 1 - TNR = F1(t)
A curva ROC é então um gráfico de contra F 1 ( t ) . Definindo v = F 1 ( s ) , pode-se definir formalmente a área sob a curva de ROC como:
Um L C = ∫ 1 0 F 0 ( M - 1 1 ( v ) ) d v
Alterando variável ( d v = f 1 ( s ) d sF0(t)F1(t)v=F1(s)
AUC=∫10F0(F−11(v))dv
dv=f1(s)ds):
AUC=∫∞−∞F0(s)f1(s)ds
Essa fórmula pode facilmente ser vista como a probabilidade de um membro sorteado aleatoriamente da classe 0 produzir uma pontuação menor que a pontuação de um membro sorteado aleatoriamente da classe 1.
Esta prova é retirada de:
https://pdfs.semanticscholar.org/1fcb/f15898db36990f651c1e5cdc0b405855de2c.pdf