Você está no caminho certo.
Então, algumas coisas logo de cara. A partir da definição das duas métricas, temos que a pontuação IoU e F estão sempre dentro de um fator de 2 uma da outra:
e também que elas se encontram nos extremos de um e zero nas condições que você esperaria (combinação perfeita e completamente disjunta).
F/ 2≤Io U≤ F
Observe também que a proporção entre eles pode estar relacionada explicitamente à IoU:
modo que a proporção se aproxime de 1/2, pois ambas as métricas se aproximam de zero.
Euo U/ F= 1 / 2 + Euo U/ 2
Mas há uma afirmação mais forte que pode ser feita para a aplicação típica da classificação à la machine learning. Para qualquer "verdade fundamental" fixa, as duas métricas estão sempre positivamente correlacionadas. Ou seja, se o classificador A for melhor que B em uma métrica, também será melhor que o classificador B na outra métrica.
É tentador concluir que as duas métricas são funcionalmente equivalentes, portanto a escolha entre elas é arbitrária, mas não tão rápida! O problema surge ao obter a pontuação média em um conjunto de inferências . Em seguida, surge a diferença ao quantificar quão pior é o classificador B que A para qualquer caso.
Em geral, a métrica IoU tende a penalizar instâncias únicas de classificação ruim mais do que a pontuação F quantitativamente, mesmo quando os dois concordam que essa instância é ruim. Da mesma forma que L2 pode penalizar os maiores erros mais que L1, a métrica IoU tende a ter um efeito "quadrado" nos erros relativos à pontuação F. Portanto, a pontuação F tende a medir algo mais próximo do desempenho médio, enquanto a pontuação da IoU mede algo mais próximo do desempenho do pior caso.
Suponha, por exemplo, que a grande maioria das inferências seja moderadamente melhor com o classificador A do que B, mas algumas delas são significativamente piores usando o classificador A. Pode ser que a métrica F favorece o classificador A enquanto a métrica IoU favorece classificador B.
Certamente, essas duas métricas são muito mais parecidas do que diferentes. Mas ambos sofrem de outra desvantagem do ponto de vista de obter médias dessas pontuações ao longo de muitas inferências: ambas exageram a importância de conjuntos com conjuntos positivos verdadeiros de pouca ou nenhuma verdade no terreno. No exemplo comum de segmentação de imagem, se uma imagem possui apenas um pixel de alguma classe detectável e o classificador detecta esse pixel e outro pixel, sua pontuação F é um 2/3 baixo e a IoU é ainda pior em 1 / 2) Erros triviais como esses podem dominar seriamente a pontuação média obtida em um conjunto de imagens. Em resumo, ele pesa cada erro de pixel inversamente proporcional ao tamanho do conjunto selecionado / relevante, em vez de tratá-los igualmente.
Há uma métrica muito mais simples que evita esse problema. Simplesmente use o erro total: FN + FP (por exemplo, 5% dos pixels da imagem foram classificados incorretamente). No caso em que um é mais importante que o outro, uma média ponderada pode ser usada: FP + FN.c0 0c1