Qual é a melhor maneira de explicar por que o não é uma boa medida, digamos, em comparação com a F1?
Qual é a melhor maneira de explicar por que o não é uma boa medida, digamos, em comparação com a F1?
Respostas:
Não é que o seja uma medida ruim por si só, é apenas que, por si só, o número resultante não representa nada significativo. Você está no caminho certo ... o que estamos procurando é uma média combinada das duas medidas de desempenho, já que não queremos escolher entre elas.
Lembre-se de que precisão e recall são definidos como:
Rechamada positiva prevista =verdadeiro positivo
Como ambos têm denominadores diferentes, adicioná-los resulta em algo como isto: ... o que não é particularmente útil.
Vamos voltar a adicioná-los e fazer um ajuste: multiplique-os por para que eles fiquem na escala correta,[0-1]. Isso está tomando a média familiar deles.
Portanto, temos duas quantidades, que têm o mesmo numerador, mas denominadores diferentes e gostaríamos de fazer a média delas. O que nós fazemos? Bem, podemos revirá-los, tomar o inverso deles. Então você pode adicioná-los juntos. Então eles estão "do lado certo", você toma o inverso novamente.
Esse processo de inversão e, em seguida, inversão novamente transforma uma média "regular" em uma média harmônica. Acontece que a média harmônica de precisão e recuperação é a estatística F1. A média harmônica é geralmente usada em vez da média aritmética padrão ao lidar com taxas, como fazemos aqui.
No final, a estatística F1 é apenas a média de precisão e recall, e você a usa porque não deseja escolher uma ou outra para avaliar o desempenho do modelo.
A resposta curta é: você não esperaria que a soma de duas porcentagens com dois denominadores diferentes tivesse algum significado específico. Portanto, a abordagem para tomar uma medida média como F1, F2 ou F0.5. Estes últimos retêm pelo menos a propriedade de uma porcentagem. Mas e quanto ao significado deles?
A beleza do Precision e do recall como medidas separadas é a facilidade de interpretação e o fato de poderem ser facilmente confrontados com os objetivos de negócios do modelo. A precisão mede a porcentagem de true positives
casos classificados de acordo positive
com o modelo. A rechamada mede a porcentagem true positives
encontrada pelo modelo em todos os true
casos. Para muitos problemas, você terá que escolher entre otimizar Precision ou Recall.
Qualquer medida média perde a interpretação acima e se resume à medida que você preferir. F1 significa que você não sabe se prefere Recall ou Precision ou atribui peso igual a cada um deles. Se você considerar a Rechamada mais importante que a Precisão, também deverá atribuir um peso maior a ela no cálculo médio (por exemplo, F2) e vice-versa (por exemplo, F0.5).
Adicionar os dois é uma medida ruim. Você obterá uma pontuação de pelo menos 1 se sinalizar tudo como positivo, já que é um recall de 100% por definição. E você terá um pouco de precisão em cima disso. A média geométrica usada em F1 enfatiza o elo mais fraco, pois é multiplicativo; você precisa pelo menos concordar com precisão e recordação para obter uma pontuação decente na F1.
O escore F1 é especialmente valioso em caso de probabilidades severamente assimétricas.
Considere o seguinte exemplo: testamos uma doença rara, mas perigosa. Vamos supor que em uma cidade de 1.000.000 pessoas apenas 100 estejam infectadas.
O teste A detecta todos esses 100 positivos. No entanto, ele também tem 50% de taxa de falsos positivos: mostra erroneamente que outras 500.000 pessoas estão doentes.
Enquanto isso, o teste B perde 10% dos infectados, mas fornece apenas 1.000 falsos positivos (taxa de falsos positivos de 0,1%)
Vamos calcular as pontuações. Para o teste A, a precisão será efetivamente 0; o recall será exatamente 1. No teste B, a precisão ainda será pequena, cerca de 0,01. A rechamada será igual a 0,9.
Se somarmos ingenuamente ou tomarmos a média aritmética de precisão e recordação, isso fornecerá 1 (0,5) para o teste A e 0,91 (0,455) para o teste B. Portanto, o teste A pareceria marginalmente melhor.
No entanto, se olharmos de uma perspectiva prática, o teste A é inútil: se uma pessoa é positiva, sua chance de ficar verdadeiramente doente é de 1 em 50.000! O teste B tem um significado mais prático: você pode levar 1.100 pessoas ao hospital e observá-las de perto. Isso é refletido com precisão pelo escore F1: para o teste A, será próximo de 0,0002, para o teste B: (0,01 * 0,9) / (0,01 + 0,9) = 0,0098, o que ainda é bastante ruim, mas cerca de 50 vezes melhor.
Essa correspondência entre o valor da pontuação e o significado prático é o que torna a pontuação da F1 valiosa.
Em geral, maximizar a média geométrica enfatiza que os valores são semelhantes. Por exemplo, considere dois modelos: o primeiro possui (precisão, recuperação) = (0,8, 0,8) e o segundo possui (precisão, recuperação) = (0,6, 1,0). Usando a média algébrica, ambos os modelos seriam equivalentes. Usando a média geométrica, o primeiro modelo é melhor porque não troca precisão por recall.