Para gerar curvas ROC (= Curvas de características operacionais do receptor):
Suponha que tenhamos um classificador binário probabilístico, como regressão logística. Antes de apresentar a curva ROC, o conceito de matriz de confusão deve ser entendido. Quando fazemos uma previsão binária, pode haver 4 tipos de erros:
- Prevemos 0 enquanto deveríamos ter a classe é realmente 0: isso é chamado de Verdadeiro Negativo , ou seja, prevemos corretamente que a classe é negativa (0). Por exemplo, um antivírus não detectou um arquivo inofensivo como vírus.
- Prevemos 0 enquanto deveríamos ter a classe na verdade 1: isso é chamado de Falso Negativo , ou seja, prevemos incorretamente que a classe é negativa (0). Por exemplo, um antivírus falhou ao detectar um vírus.
- Prevemos 1 enquanto deveríamos ter a classe na verdade 0: isso é chamado de Falso Positivo , ou seja, prevemos incorretamente que a classe é positiva (1). Por exemplo, um antivírus considerava um arquivo inofensivo um vírus.
- Prevemos 1 enquanto deveríamos ter a classe é realmente 1: isso é chamado de Verdadeiro Positivo , ou seja, prevemos corretamente que a classe é positiva (1). Por exemplo, um antivírus detectou corretamente um vírus.
Para obter a matriz de confusão, examinamos todas as previsões feitas pelo modelo e contamos quantas vezes cada um desses 4 tipos de erros ocorre:
Neste exemplo de matriz de confusão, entre os 50 pontos de dados classificados, 45 são classificados corretamente e os 5 são classificados incorretamente.
Como para comparar dois modelos diferentes, geralmente é mais conveniente ter uma única métrica em vez de várias, calculamos duas métricas da matriz de confusão, que posteriormente combinaremos em uma:
- TPTP+ FN
- FPFP+ TN
0,00 ; 0,01 , 0,02 , … , 1,00
Nesta figura, a área azul corresponde à área sob a curva da característica de operação do receptor (AUROC). A linha tracejada na diagonal apresenta a curva ROC de um preditor aleatório: possui um AUROC de 0,5. O preditor aleatório é comumente usado como linha de base para verificar se o modelo é útil.
Se você deseja obter alguma experiência em primeira mão: