Acabei de ler esta discussão. Eles argumentam que a AUC do PR é melhor que a AUC do ROC no conjunto de dados desequilibrados.
Por exemplo, temos 10 amostras no conjunto de dados de teste. 9 amostras são positivas e 1 é negativa. Temos um modelo terrível que prevê tudo de positivo. Assim, teremos uma métrica que TP = 9, FP = 1, TN = 0, FN = 0.
Então, Precisão = 0,9, Recuperação = 1,0. A precisão e o recall são muito altos, mas temos um classificador ruim.
Por outro lado, TPR = TP / (TP + FN) = 1,0, FPR = FP / (FP + TN) = 1,0. Como o FPR é muito alto, podemos identificar que esse não é um bom classificador.
Claramente, o ROC é melhor que o PR em conjuntos de dados desequilibrados. Alguém pode explicar por que PR é melhor?