Embora seja provável que as duas medidas estatísticas sejam correlacionadas, elas medem diferentes qualidades do classificador.
AUROC
A área sob a curva (AUC) é igual à probabilidade de um classificador classificar uma instância positiva escolhida aleatoriamente mais alta que um exemplo negativo escolhido aleatoriamente. Ele mede a habilidade dos classificadores em classificar um conjunto de padrões de acordo com o grau em que eles pertencem à classe positiva, mas sem realmente atribuir padrões às classes.
A precisão geral também depende da capacidade do classificador de classificar padrões, mas também de selecionar um limite no ranking usado para atribuir padrões à classe positiva se acima do limite e à classe negativa se abaixo.
Assim, é provável que o classificador com a estatística AUROC mais alta (todas as coisas sejam iguais) também tenha uma precisão geral mais alta, pois a classificação dos padrões (que o AUROC mede) é benéfica tanto para o AUROC quanto para a precisão geral. No entanto, se um classificador classifica bem os padrões, mas seleciona mal o limite, ele pode ter um AUROC alto, mas uma precisão geral ruim.
Uso pratico
Na prática, eu gosto de coletar a precisão geral, o AUROC e se o classificador estima a probabilidade de pertencer à classe, a entropia cruzada ou informações preditivas. Então, tenho uma métrica que mede sua capacidade bruta de executar uma classificação rígida (assumindo que os custos de classificação falsa positiva e falsa negativa são iguais e as frequências de classe na amostra são as mesmas que em uso operacional - uma grande suposição!), uma métrica que mede a capacidade de classificar padrões e uma métrica que mede quão bem a classificação é calibrada como uma probabilidade.
Para muitas tarefas, os custos de classificação incorreta operacional são desconhecidos ou variáveis, ou as frequências da classe operacional são diferentes das da amostra de treinamento ou são variáveis. Nesse caso, a precisão geral geralmente não tem sentido e o AUROC é um melhor indicador de desempenho e, idealmente, queremos um classificador que produz probabilidades bem calibradas, para que possamos compensar esses problemas no uso operacional. Essencialmente, qual métrica é importante depende do problema que estamos tentando resolver.