Por que o classificador AUC = 1 classificou erroneamente metade das amostras?


20

Estou usando um classificador que retorna probabilidades. Para calcular a AUC, estou usando o pROC R-package. As probabilidades de saída do classificador são:

probs=c(0.9865780,
0.9996340,
0.9516880,
0.9337157,
0.9778576,
0.8140116,
0.8971550,
0.8967585,
0.6322902,
0.7497237)

probsmostra probabilidade de estar na classe '1'. Como mostrado, o classificador classificou todas as amostras na classe '1'.

O vetor de rótulo verdadeiro é:

truel=c(1, 1, 1, 1, 1, 0, 0, 0, 0, 0)

Como mostrado, o classificador classificou incorretamente 5 amostras. Mas, AUC é:

pROC::auc(truel, probs)
Area under the curve: 1

Poderia me explicar por que isso acontece?


Respostas:


21

A CUA é uma medida da capacidade de classificar exemplos de acordo com a probabilidade de associação à classe. Portanto, se todas as probabilidades estiverem acima de 0,5, você ainda poderá ter uma AUC de um se todos os padrões positivos tiverem probabilidades mais altas do que todos os padrões negativos. Nesse caso, haverá um limite de decisão superior a 0,5, o que daria uma taxa de erro de zero. Observe que, como a AUC mede apenas a classificação das probabilidades, não informa se as probabilidades estão bem calibradas (por exemplo, não há viés sistemático); se a calibração das probabilidades é importante, observe a métrica de entropia cruzada.


21

As outras respostas explicam o que está acontecendo, mas achei que uma imagem poderia ser boa.

Você pode ver que as classes estão perfeitamente separadas, portanto a AUC é 1, mas o limiar em 1/2 produzirá uma taxa de classificação incorreta de 50%.

probs


21

As amostras não foram "classificadas incorretamente". Os 0exemplos são classificados estritamente abaixo dos 1exemplos. O AUROC está fazendo exatamente o que está definido para fazer, que é medir a probabilidade de que um selecionado aleatoriamente 1tenha uma classificação mais alta que um selecionado aleatoriamente 0. Nesta amostra, isso sempre é verdade, portanto é um evento de probabilidade 1.

Tom Fawcett tem um ótimo artigo expositivo sobre curvas ROC. Eu sugiro começar por aí.

Tom Fawcett. "Uma introdução à análise ROC." Cartas de reconhecimento de padrão. 2005.


3
+1 O artigo de Fawcett é realmente um bom ponto de partida.
Dikran Marsupial
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.