Quando calculamos a medida F considerando a precisão e a recuperação, tomamos a média harmônica das duas medidas em vez de uma média aritmética simples.
Qual é a razão intuitiva por trás de tomar a média harmônica e não uma média simples?
Quando calculamos a medida F considerando a precisão e a recuperação, tomamos a média harmônica das duas medidas em vez de uma média aritmética simples.
Qual é a razão intuitiva por trás de tomar a média harmônica e não uma média simples?
Respostas:
Aqui, já temos algumas respostas elaboradas, mas pensei que mais algumas informações sobre isso seriam úteis para alguns caras que querem se aprofundar (especialmente por que mede F).
De acordo com a teoria da medição, a medida composta deve satisfazer as seguintes 6 definições:
Podemos então derivar e obter a função da eficácia:
E normalmente não usamos a eficácia, mas a pontuação F muito mais simples porque :
Agora que temos a fórmula geral da medida F:
onde podemos colocar mais ênfase no recall ou precisão definindo beta, porque beta é definido da seguinte forma:
Se considerarmos a recuperação mais importante do que a precisão (todos os relevantes são selecionados), podemos definir beta como 2 e obter a medida F2. E se fizermos o inverso e a precisão do peso maior do que a rechamada (o máximo de elementos selecionados são relevantes quanto possível, por exemplo, em alguns cenários de correção de erros gramaticais como CoNLL ), apenas definimos beta como 0,5 e obtemos a medida F0,5. E, obviamente, podemos definir beta como 1 para obter a medida F1 mais usada (média harmônica de precisão e recall).
Acho que até certo ponto já respondi por que não usamos a média aritmética.
Referências:
Para explicar, considere, por exemplo, qual é a média de 30 mph e 40 mph? se você dirigir por 1 hora em cada velocidade, a velocidade média ao longo das 2 horas é de fato a média aritmética, 35 mph.
No entanto, se você dirigir na mesma distância em cada velocidade - digamos 10 milhas - então a velocidade média acima de 20 milhas é a média harmônica de 30 e 40, cerca de 34,3 mph.
A razão é que, para a média ser válida, você realmente precisa que os valores estejam nas mesmas unidades em escala. As milhas por hora precisam ser comparadas no mesmo número de horas; para comparar no mesmo número de milhas, em vez disso, você precisa calcular a média de horas por milha, que é exatamente o que a média harmônica faz.
A precisão e a recuperação têm verdadeiros positivos no numerador e denominadores diferentes. Para fazer a média deles, realmente só faz sentido fazer a média de seus recíprocos, portanto, a média harmônica.
Porque pune mais os valores extremos.
Considere um método trivial (por exemplo, sempre retornando a classe A). Existem infinitos elementos de dados da classe B e um único elemento da classe A:
Precision: 0.0
Recall: 1.0
Ao tirar a média aritmética, teria 50% correto. Apesar de ser o pior desfecho possível! Com a média harmônica, a medida F1 é 0.
Arithmetic mean: 0.5
Harmonic mean: 0.0
Em outras palavras, ter um alto F1, você precisa ambos têm uma alta precisão e recall.
As respostas acima são bem explicadas. Isso é apenas para uma referência rápida para entender a natureza da média aritmética e a média harmônica com gráficos. Como você pode ver no gráfico, considere o eixo X e o eixo Y como precisão e recuperação, e o eixo Z como a pontuação F1. Portanto, a partir do gráfico da média harmônica, tanto a precisão quanto a recuperação devem contribuir igualmente para que a pontuação F1 aumente, ao contrário da média aritmética.
Isso é para a média aritmética.
Isso é para a média harmônica.
A média harmônica é o equivalente da média aritmética para os recíprocos de quantidades que devem ser calculadas pela média aritmética. Mais precisamente, com a média harmônica, você transforma todos os seus números para a forma "média" (tomando o recíproco), você pega sua média aritmética e então transforma o resultado de volta à representação original (tomando o recíproco novamente).
A precisão e o recall são recíprocos "naturalmente" porque seu numerador é o mesmo e seus denominadores são diferentes. As frações são mais razoáveis para calcular a média aritmética quando têm o mesmo denominador.
Para mais intuição, suponha que mantemos constante o número de itens positivos verdadeiros. Então, ao tomar a média harmônica da precisão e do recall, você implicitamente obtém a média aritmética dos falsos positivos e falsos negativos. Basicamente, significa que os falsos positivos e os falsos negativos são igualmente importantes para você quando os verdadeiros positivos permanecem os mesmos. Se um algoritmo tem mais N itens falsos positivos, mas N menos falsos negativos (embora tenha os mesmos positivos verdadeiros), a medida F permanece a mesma.
Em outras palavras, a medida F é adequada quando:
O ponto 1 pode ou não ser verdadeiro, existem variantes ponderadas da medida F que podem ser usadas se esta suposição não for verdadeira. O ponto 2 é bastante natural, pois podemos esperar que os resultados sejam escalonados se apenas classificarmos mais e mais pontos. Os números relativos devem permanecer os mesmos.
O ponto 3 é bastante interessante. Em muitas aplicações, os negativos são o padrão natural e pode até ser difícil ou arbitrário especificar o que realmente conta como um negativo verdadeiro. Por exemplo, um alarme de incêndio está tendo um evento negativo verdadeiro a cada segundo, a cada nanossegundo, toda vez que um tempo de Planck passa, etc. Até mesmo um pedaço de rocha tem esses eventos de detecção de incêndio verdadeiramente negativos o tempo todo.
Ou em um caso de detecção de rosto, na maioria das vezes você " não retorna corretamente " bilhões de áreas possíveis na imagem, mas isso não é interessante. Os casos interessantes é quando você não voltar a detecção proposto ou quando você deve devolvê-lo.
Em contraste, a precisão da classificação se preocupa igualmente com verdadeiros positivos e verdadeiros negativos e é mais adequada se o número total de amostras (eventos de classificação) for bem definido e bastante pequeno.