O significado intuitivo mais próximo do escore f1 está sendo percebido como a média do recall e da precisão. Vamos esclarecer para você:
Em uma tarefa de classificação, você pode planejar criar um classificador com alta precisão E recuperação. Por exemplo, um classificador que informa se uma pessoa é honesta ou não.
Para precisão, você é capaz de dizer com precisão quantas pessoas honestas existem em um determinado grupo. Nesse caso, ao se preocupar com alta precisão, você assume que pode classificar incorretamente uma pessoa mentirosa como honesta, mas não com frequência. Em outras palavras, aqui você está tentando identificar o mentiroso do grupo honesto como um todo.
No entanto, para recordar, você ficará realmente preocupado se achar que uma pessoa mentirosa é honesta. Para você, isso será uma grande perda e um grande erro, e você não deseja fazê-lo novamente. Além disso, tudo bem se você classificou alguém honesto como mentiroso, mas seu modelo nunca deve (ou quase não deve) reivindicar uma pessoa mentirosa como honesta. Em outras palavras, aqui você está se concentrando em uma classe específica e tentando não cometer erros.
Agora, vamos considerar o caso em que você deseja que seu modelo (1) identifique com precisão honestidade de um mentiroso (precisão) (2) identifique cada pessoa de ambas as classes (recordação). O que significa que você selecionará o modelo que terá bom desempenho nas duas métricas.
O modelo de decisão de seleção tentará avaliar cada modelo com base na média das duas métricas. O F-Score é o melhor que pode descrever isso. Vamos dar uma olhada na fórmula:
Lembre-se: p = tp / (tp + fp)
Lembre-se: r = tp / (tp + fn)
Escore F: fscore = 2 / (1 / r + 1 / p)
Como você vê, quanto maior a recordação E a precisão, maior o escore F.