Por que o F-Measure é uma média harmônica e não uma média aritmética das medidas de Precisão e Recall?

Question 1

Quando calculamos a medida F considerando a precisão e a recuperação, tomamos a média harmônica das duas medidas em vez de uma média aritmética simples.

Qual é a razão intuitiva por trás de tomar a média harmônica e não uma média simples?

Question 2

Aqui, já temos algumas respostas elaboradas, mas pensei que mais algumas informações sobre isso seriam úteis para alguns caras que querem se aprofundar (especialmente por que mede F).

De acordo com a teoria da medição, a medida composta deve satisfazer as seguintes 6 definições:

Conectividade (dois pares podem ser ordenados) e transitividade (se e1> = e2 e e2> = e3 então e1> = e3)
Independência: dois componentes contribuem com seus efeitos de forma independente para a eficácia.
Condição de Thomsen: Dado que em uma rechamada constante (precisão) encontramos uma diferença na eficácia para dois valores de precisão (rechamada), essa diferença não pode ser removida ou revertida alterando o valor da constante.
Capacidade de resolução restrita.
Cada componente é essencial: a variação em um enquanto deixa o outro constante fornece uma variação na eficácia.
Propriedade arquimediana para cada componente. Ele apenas garante que os intervalos em um componente sejam comparáveis.

Podemos então derivar e obter a função da eficácia:

E normalmente não usamos a eficácia, mas a pontuação F muito mais simples porque :

Agora que temos a fórmula geral da medida F:

onde podemos colocar mais ênfase no recall ou precisão definindo beta, porque beta é definido da seguinte forma:

Se considerarmos a recuperação mais importante do que a precisão (todos os relevantes são selecionados), podemos definir beta como 2 e obter a medida F2. E se fizermos o inverso e a precisão do peso maior do que a rechamada (o máximo de elementos selecionados são relevantes quanto possível, por exemplo, em alguns cenários de correção de erros gramaticais como CoNLL ), apenas definimos beta como 0,5 e obtemos a medida F0,5. E, obviamente, podemos definir beta como 1 para obter a medida F1 mais usada (média harmônica de precisão e recall).

Acho que até certo ponto já respondi por que não usamos a média aritmética.

Referências:

Question 3

Para explicar, considere, por exemplo, qual é a média de 30 mph e 40 mph? se você dirigir por 1 hora em cada velocidade, a velocidade média ao longo das 2 horas é de fato a média aritmética, 35 mph.

No entanto, se você dirigir na mesma distância em cada velocidade - digamos 10 milhas - então a velocidade média acima de 20 milhas é a média harmônica de 30 e 40, cerca de 34,3 mph.

A razão é que, para a média ser válida, você realmente precisa que os valores estejam nas mesmas unidades em escala. As milhas por hora precisam ser comparadas no mesmo número de horas; para comparar no mesmo número de milhas, em vez disso, você precisa calcular a média de horas por milha, que é exatamente o que a média harmônica faz.

A precisão e a recuperação têm verdadeiros positivos no numerador e denominadores diferentes. Para fazer a média deles, realmente só faz sentido fazer a média de seus recíprocos, portanto, a média harmônica.

Question 4

Porque pune mais os valores extremos.

Considere um método trivial (por exemplo, sempre retornando a classe A). Existem infinitos elementos de dados da classe B e um único elemento da classe A:

Precision: 0.0
Recall:    1.0

Ao tirar a média aritmética, teria 50% correto. Apesar de ser o pior desfecho possível! Com a média harmônica, a medida F1 é 0.

Arithmetic mean: 0.5
Harmonic mean:   0.0

Em outras palavras, ter um alto F1, você precisa ambos têm uma alta precisão e recall.

Question 5

As respostas acima são bem explicadas. Isso é apenas para uma referência rápida para entender a natureza da média aritmética e a média harmônica com gráficos. Como você pode ver no gráfico, considere o eixo X e o eixo Y como precisão e recuperação, e o eixo Z como a pontuação F1. Portanto, a partir do gráfico da média harmônica, tanto a precisão quanto a recuperação devem contribuir igualmente para que a pontuação F1 aumente, ao contrário da média aritmética.

Isso é para a média aritmética.

Isso é para a média harmônica.

Question 6

A média harmônica é o equivalente da média aritmética para os recíprocos de quantidades que devem ser calculadas pela média aritmética. Mais precisamente, com a média harmônica, você transforma todos os seus números para a forma "média" (tomando o recíproco), você pega sua média aritmética e então transforma o resultado de volta à representação original (tomando o recíproco novamente).

A precisão e o recall são recíprocos "naturalmente" porque seu numerador é o mesmo e seus denominadores são diferentes. As frações são mais razoáveis para calcular a média aritmética quando têm o mesmo denominador.

Para mais intuição, suponha que mantemos constante o número de itens positivos verdadeiros. Então, ao tomar a média harmônica da precisão e do recall, você implicitamente obtém a média aritmética dos falsos positivos e falsos negativos. Basicamente, significa que os falsos positivos e os falsos negativos são igualmente importantes para você quando os verdadeiros positivos permanecem os mesmos. Se um algoritmo tem mais N itens falsos positivos, mas N menos falsos negativos (embora tenha os mesmos positivos verdadeiros), a medida F permanece a mesma.

Em outras palavras, a medida F é adequada quando:

erros são igualmente ruins, sejam eles falsos positivos ou falsos negativos
o número de erros é medido em relação ao número de verdadeiros positivos
verdadeiros negativos são desinteressantes

O ponto 1 pode ou não ser verdadeiro, existem variantes ponderadas da medida F que podem ser usadas se esta suposição não for verdadeira. O ponto 2 é bastante natural, pois podemos esperar que os resultados sejam escalonados se apenas classificarmos mais e mais pontos. Os números relativos devem permanecer os mesmos.

O ponto 3 é bastante interessante. Em muitas aplicações, os negativos são o padrão natural e pode até ser difícil ou arbitrário especificar o que realmente conta como um negativo verdadeiro. Por exemplo, um alarme de incêndio está tendo um evento negativo verdadeiro a cada segundo, a cada nanossegundo, toda vez que um tempo de Planck passa, etc. Até mesmo um pedaço de rocha tem esses eventos de detecção de incêndio verdadeiramente negativos o tempo todo.

Ou em um caso de detecção de rosto, na maioria das vezes você " não retorna corretamente " bilhões de áreas possíveis na imagem, mas isso não é interessante. Os casos interessantes é quando você não voltar a detecção proposto ou quando você deve devolvê-lo.

Em contraste, a precisão da classificação se preocupa igualmente com verdadeiros positivos e verdadeiros negativos e é mais adequada se o número total de amostras (eventos de classificação) for bem definido e bastante pequeno.