Por que a soma de Precision and Recall não é uma medida válida?


12

Qual é a melhor maneira de explicar por que o Precision+Recall não é uma boa medida, digamos, em comparação com a F1?


O que isso significaria? Como você interpretaria isso? O que isso realmente lhe diria?
Matthew Drury

1
Você deve alterar o título substituindo "Precision + Recall" por "a soma de Precision and Recall" para tornar mais claro o que deseja.
G3o2 23/06

@ g3o2 estamos falando de gramática aqui, ou estou perdendo algo maior?
Matt

Na verdade não, apenas observando que também pode ser lido Precision & Recall, em particular ao ler apenas o título.
G3o2

Respostas:


18

Não é que o seja uma medida ruim por si só, é apenas que, por si só, o número resultante não representa nada significativo. Você está no caminho certo ... o que estamos procurando é uma média combinada das duas medidas de desempenho, já que não queremos escolher entre elas.Precision+Recall

Lembre-se de que precisão e recall são definidos como:

Rechamada positiva prevista =verdadeiro positivo

Precision=True PositivePredicted Positive
Recall=True PositiveActual Positive

Como ambos têm denominadores diferentes, adicioná-los resulta em algo como isto: ... o que não é particularmente útil.

True Positive(Predicted Positive+Actual Positive)Predicted Positive×Actual Positive

Vamos voltar a adicioná-los e fazer um ajuste: multiplique-os por para que eles fiquem na escala correta,[0-1]. Isso está tomando a média familiar deles.12[01]

12×(True PositivePredicted Positive+True PositiveActual Positive)

Portanto, temos duas quantidades, que têm o mesmo numerador, mas denominadores diferentes e gostaríamos de fazer a média delas. O que nós fazemos? Bem, podemos revirá-los, tomar o inverso deles. Então você pode adicioná-los juntos. Então eles estão "do lado certo", você toma o inverso novamente.

Esse processo de inversão e, em seguida, inversão novamente transforma uma média "regular" em uma média harmônica. Acontece que a média harmônica de precisão e recuperação é a estatística F1. A média harmônica é geralmente usada em vez da média aritmética padrão ao lidar com taxas, como fazemos aqui.

No final, a estatística F1 é apenas a média de precisão e recall, e você a usa porque não deseja escolher uma ou outra para avaliar o desempenho do modelo.


2
Muito obrigado por desenvolver gentilmente a média harmônica da média algébrica! mas o que provavelmente não se sente muito firme comigo é a parte em que você diz "o que não é particularmente útil". Nesse sentido, comentei abaixo as outras duas respostas agora. Apenas para o caso de você dar um passo adiante. Por exemplo, imagine que eu desejo escolher o melhor classificador dentre um grupo de classificadores testados no mesmo conjunto de dados.
Matt

@matt, o uso de qualquer medida combinada levará a escolha do modelo para um determinado ponto, mas não além. Dois modelos com o mesmo valor F1 podem mostrar valores opostos de rechamada e precisão. Portanto, para F1 ser o mesmo, você terá que escolher entre Rechamada e Precisão.
G3o2

4

A resposta curta é: você não esperaria que a soma de duas porcentagens com dois denominadores diferentes tivesse algum significado específico. Portanto, a abordagem para tomar uma medida média como F1, F2 ou F0.5. Estes últimos retêm pelo menos a propriedade de uma porcentagem. Mas e quanto ao significado deles?

A beleza do Precision e do recall como medidas separadas é a facilidade de interpretação e o fato de poderem ser facilmente confrontados com os objetivos de negócios do modelo. A precisão mede a porcentagem de true positivescasos classificados de acordo positivecom o modelo. A rechamada mede a porcentagem true positivesencontrada pelo modelo em todos os truecasos. Para muitos problemas, você terá que escolher entre otimizar Precision ou Recall.

Qualquer medida média perde a interpretação acima e se resume à medida que você preferir. F1 significa que você não sabe se prefere Recall ou Precision ou atribui peso igual a cada um deles. Se você considerar a Rechamada mais importante que a Precisão, também deverá atribuir um peso maior a ela no cálculo médio (por exemplo, F2) e vice-versa (por exemplo, F0.5).


3

Adicionar os dois é uma medida ruim. Você obterá uma pontuação de pelo menos 1 se sinalizar tudo como positivo, já que é um recall de 100% por definição. E você terá um pouco de precisão em cima disso. A média geométrica usada em F1 enfatiza o elo mais fraco, pois é multiplicativo; você precisa pelo menos concordar com precisão e recordação para obter uma pontuação decente na F1.


Na verdade, é essa ênfase exata do elo fraco, que considero supérflua quando Precision e Recall são sensíveis e não nervosos. Quando os dois não estão nervosos, não tenho certeza de ver o valor agregado de uma métrica enfatizando a semelhança entre eles, ou ser penalizado de maneira diferente pelo tamanho da diferença. Essa propriedade exata motivou em parte minha pergunta original aqui.
Matt

Parece trabalho extra para mim. Se você valoriza um ponto percentual de recall tanto quanto um de precisão, acho que sua medida é a que você deve usar. Mas não consigo imaginar você. A recordação provavelmente vai dominar, mesmo se você reduzir os intervalos. Você pode escalar o recall para ser maçãs com maçãs com precisão, mas isso é mais trabalho e torna a interpretação menos clara.
Ben Ogórek

1
Não sei por que supor que o recall deve dominar (?), Mas o dimensionamento do recall para maçãs com precisão pode ser uma discussão relacionada interessante aqui ou em outro lugar - um ponteiro na direção certa pode ser bom de se ter :) e, caso contrário, obrigado novamente
Matt

3

O escore F1 é especialmente valioso em caso de probabilidades severamente assimétricas.

Considere o seguinte exemplo: testamos uma doença rara, mas perigosa. Vamos supor que em uma cidade de 1.000.000 pessoas apenas 100 estejam infectadas.

O teste A detecta todos esses 100 positivos. No entanto, ele também tem 50% de taxa de falsos positivos: mostra erroneamente que outras 500.000 pessoas estão doentes.

Enquanto isso, o teste B perde 10% dos infectados, mas fornece apenas 1.000 falsos positivos (taxa de falsos positivos de 0,1%)

Vamos calcular as pontuações. Para o teste A, a precisão será efetivamente 0; o recall será exatamente 1. No teste B, a precisão ainda será pequena, cerca de 0,01. A rechamada será igual a 0,9.

Se somarmos ingenuamente ou tomarmos a média aritmética de precisão e recordação, isso fornecerá 1 (0,5) para o teste A e 0,91 (0,455) para o teste B. Portanto, o teste A pareceria marginalmente melhor.

No entanto, se olharmos de uma perspectiva prática, o teste A é inútil: se uma pessoa é positiva, sua chance de ficar verdadeiramente doente é de 1 em 50.000! O teste B tem um significado mais prático: você pode levar 1.100 pessoas ao hospital e observá-las de perto. Isso é refletido com precisão pelo escore F1: para o teste A, será próximo de 0,0002, para o teste B: (0,01 * 0,9) / (0,01 + 0,9) = 0,0098, o que ainda é bastante ruim, mas cerca de 50 vezes melhor.

Essa correspondência entre o valor da pontuação e o significado prático é o que torna a pontuação da F1 valiosa.


Obrigado. Talvez eu não tenha me imergido o suficiente no caso, mas essa elucidação não depende da vantagem pragmática de alocar recursos para os "positivos" em um domínio da vida real, onde detectar um resultado (positivo) é o objetivo? nem sempre é esse o caso, que o objetivo é detectar um resultado, não é? às vezes, você só quer saber se é uma maçã ou um par e os dois tipos de erro têm o mesmo custo prático do mundo real.
Matt

Acima de tudo, o que não vejo é como essa propriedade de ser "melhor" escala para casos em que a diferença (absoluta) entre precisão e recordação é menos patológica. Talvez a intuição é inerentemente lá, mas eu não estou lá ainda ...
Matt

1

Em geral, maximizar a média geométrica enfatiza que os valores são semelhantes. Por exemplo, considere dois modelos: o primeiro possui (precisão, recuperação) = (0,8, 0,8) e o segundo possui (precisão, recuperação) = (0,6, 1,0). Usando a média algébrica, ambos os modelos seriam equivalentes. Usando a média geométrica, o primeiro modelo é melhor porque não troca precisão por recall.


1
Muito obrigado. No entanto, em termos práticos, não vejo nenhuma preferência universalmente aplicável entre, por exemplo, (0,8, 0,8) e (0,7, 0,9). Talvez você tenha sugerido algo mais profundo em "trocar o Precision por recall" - o que eu ainda não estou entendendo. Para mim, a média algébrica de dois tipos de erro, simplesmente fornece a média mais simples deles, sem qualquer viés de semelhança. Por exemplo, eu poderia usar o somatório simples de Precision e Recall para descobrir qual dos dois classificadores me dá menos erro.
Matt

Podemos levar isso ao extremo. Digamos que você tenha um sistema que tenha um (precisão, recuperação) = (0,6, 0,6). Isso significa que, quando diz "sim", está certo em 60% das vezes e captura corretamente 60% dos eventos "sim". Agora vamos comparar isso com um sistema que possui (0,3, 1). Isso tem uma média algébrica melhor, mas o que está fazendo? Ele está capturando todos os eventos "yes", mas também está dizendo "yes" incorretamente demais . Isso é bom? Isso é ruim? Depende do motivo pelo qual você está construindo o sistema. Que ação você tomará quando vir uma previsão de "sim"? Qual é a consequência de perder um evento "yes"?
roundsquare

1
Nenhuma destas medidas são regras precisão de pontuação adequada
Frank Harrell

@roundsquare muito obrigado, mas para casos não patológicos - onde ambos não estão próximos de 0 e 1 - eu provavelmente preciso de ajuda para ver o benefício de enfatizar a semelhança entre os dois, na medida final!
Matt

@FrankHarrell obrigado por apontando para "o elefante na sala"
Matt
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.