Por que precisão e recall são usados ​​na pontuação F1, em vez de precisão e VPL?


7

Em problemas de classificação binária, parece que o escore F1 é frequentemente usado como uma medida de desempenho. Até onde eu entendi, a idéia é encontrar a melhor escolha entre precisão e recall. A fórmula para a pontuação F1 é simétrica em precisão e recuperação. No entanto, (e é isso que me incomoda), existe uma assimetria entre precisão e recordação. Embora o recall seja uma propriedade do classificador independente de probabilidades anteriores, a precisão é uma quantidade que depende das probabilidades anteriores.

Alguém pode me dizer o que há de tão especial na combinação de precisão e recordação? Por que não usamos precisão (que é o valor preditivo positivo ) e valor preditivo negativo ?

Respostas:


4

A pontuação F1 pesa a precisão e o recall igualmente, mas existem generalizações fáceis para qualquer caso em que você considera o tempo de recall mais importante que a precisão. Veja https://en.wikipedia.org/wiki/F1_score :β

Fβ=(1 1+β2)precEusEuonrecumaeueuβ2precEusEuon+recumaeueu

F1 é apenas uma média harmônica. A média simples não faz muito sentido porque a precisão e o recall têm os mesmos numeradores (verdadeiro positivo), mas denominadores diferentes (teste positivo, condição positiva). Portanto, apenas um meio harmônico faz sentido. Não sei se há mais teoria do que isso - o meio mais simples e ponderado que faz sentido.

Acho que entendi a essência do seu argumento, que parafrasco para me referir ao fato de que a precisão tem "teste positivo" no denominador, portanto é bastante sensível ao quanto o classificador marca positivo. Por esse motivo, você não vê frequentemente, por exemplo, curvas de precisão de recuperação. Você vê curvas ROC que são curvas de especificidade de recall (taxa positiva verdadeira versus taxa positiva falsa).

Isso está mais próximo do que você sugere, mas sugere PPV vs NPV. Certamente, isso pode ser válido dependendo do seu caso de uso, mas acho que o argumento tende a se desviar do outro lado, a especificidade de recall, em vez de NPV de precisão.


0

Se for puramente um problema de classificação binária (classe A vs. classe B), o benefício do escore F é principalmente para caracterizar o desempenho em um conjunto de dados desequilibrados (mais instâncias de uma classe que a outra) e sua pergunta / preocupação é mais relevante. A página da Wikipedia para estados com pontuação F

" Observe, no entanto, que as medidas F não levam em consideração os verdadeiros negativos e que medidas como o coeficiente Phi, o coeficiente de correlação de Matthews, o Informedness ou o kappa de Cohen podem ser preferíveis para avaliar o desempenho de um classificador binário " .

Porém, se o classificador pretende ser um detector , geralmente é mais interessante o desempenho em relação à classe-alvo (Positiva) do que a classe não-alvo (Negativa). Além disso, o destino geralmente é aquele que está sub-representado no conjunto de dados. Nesse contexto, acho mais intuitivo querer saber qual fração dos alvos são detectados (recall) e quão confiável / confiante cada detecção é (precisão). Embora saber o quão bom o detector é em não detectar não-alvos (valor preditivo negativo) pode ter valor, não é uma quantidade muito perspicaz de lidar ao tentar caracterizar o desempenho de um detector de alvos com um conjunto de dados desequilibrados.

Em resumo, o parâmetro de ajuste do escore F ( ) fornece uma maneira mais intuitiva de equilibrar a importância de detectar todos os alvos (alta recordação) com a importância de realizar detecções com alta confiança (alta precisão). Observe também que a pontuação F pode ser escrita em termos de erros do tipo I e do tipo II (consulte o link da Wikipedia acima).β

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.