A AUC é a probabilidade de classificar corretamente uma instância selecionada aleatoriamente de cada classe?


10

Li esta legenda em um artigo e nunca vi a AUC descrita dessa maneira em nenhum outro lugar. Isso é verdade? Existe uma maneira simples ou comprovada de ver isso?

A Fig. 2 mostra a precisão da previsão de variáveis ​​dicotômicas expressas em termos da área sob a curva característica operacional do receptor (AUC), que é equivalente à probabilidade de classificar corretamente dois usuários selecionados aleatoriamente, um de cada classe (por exemplo, masculino e feminino) )

Parece-me que isso não pode ser verdade, pois para AUC = 0,5, o acima sugeriria que há uma probabilidade de 50% de prever corretamente um lançamento de moeda duas vezes seguidas, mas, na realidade, você tem apenas 25% de chance de prever corretamente dois lançamentos de moeda seguidos. Pelo menos, é assim que estou pensando nesta afirmação.


11
Aprecio que o conceito expresso no título não esteja certo, mas, para corresponder à citação, não deveria dizer "a probabilidade de classificar corretamente ..." em vez de apenas "a probabilidade de classificar"? Isso me confundiu na primeira vez que li.
Silverfish 28/09

11
Já era um título longo o suficiente! Na verdade, eu considerei adicionar "corretamente", acredite ou não. :)
thecity2

Respostas:


13

A cotação está um pouco incorreta. A afirmação correta é que ROC AUC é a probabilidade de um exemplo positivo escolhido aleatoriamente ter uma classificação mais alta do que um exemplo negativo escolhido aleatoriamente. Isso se deve à relação entre a ROC AUC e o teste de Wilcoxon de classificações.

Você encontrará a discussão em Tom Fawcett, " Uma introdução à análise ROC ", esclarecedora.


8

A descrição do autor não é totalmente precisa. A área sob a curva ROC é realmente igual à probabilidade de um exemplo positivo selecionado aleatoriamente ter uma pontuação de risco mais alta do que a de um exemplo negativo selecionado aleatoriamente. Isso não tem necessariamente nada a ver com classificação, é apenas uma medida de separação entre as distribuições de pontuação.

Para o seu exemplo de moeda, imagine que você tem duas moedas e cada uma tem uma pontuação associada. Você então joga as duas moedas até que uma apareça cara e a outra coroa (já que estamos condicionando resultados diferentes). Isso equivale a ter um modelo com pontuação aleatória, e a probabilidade de que a moeda que surgiu cara tenha uma pontuação maior (ou menor) é 1/2.


2

A descrição que você leu está correta, embora eu não goste de suas palavras. A área sob a curva ROC (AUC) é a probabilidade de classificar corretamente um par aleatório de indivíduos na classe 1 da classe 2. É uma estatística baseada em classificação, portanto, se você tivesse que adivinhar se um indivíduo em par está classificado com mais de o outro, é apenas 50% de chance se adivinhar aleatoriamente. A AUC é idêntica [1] à estatística do teste de postos sinalizados de Wilcoxon, e isso pode ser usado para ilustrar seu significado.

[1]: Mason e Graham (2002). Áreas abaixo das curvas características operacionais relativas (ROC) e níveis operacionais relativos (ROL): significância e interpretação estatística. Revista Trimestral da Sociedade Meteorológica Real. 128: 2145-2166.


1

Como outros apontaram, a AUC expressa a probabilidade de que um exemplo escolhido aleatoriamente da classe positiva receba, do classificador, uma pontuação mais alta que um exemplo escolhido aleatoriamente da classe negativa.

Para a prova dessa propriedade, consulte: Como derivar uma fórmula matemática para a AUC?

Ou a fonte usada para essa resposta: D. Hand, 2009, Medindo o desempenho do classificador: uma alternativa coerente à área sob a curva ROC

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.