Por que a medida F é preferida para tarefas de classificação?


8

Por que a medida F geralmente é usada para tarefas de classificação (supervisionadas), enquanto a medida G (ou índice de Fowlkes – Mallows) é geralmente usada para tarefas de agrupamento (não supervisionadas)?

A medida F é a média harmônica da precisão e recuperação .

A medida G (ou índice de Fowlkes – Mallows) é a média geométrica da precisão e recuperação .

Abaixo está um gráfico dos diferentes meios.

insira a descrição da imagem aqui

F1 (harmônica)=2precEusEuonrecumaeueuprecEusEuon+recumaeueu

Geométrica=precEusEuonrecumaeueu

Aritmética=precEusEuon+recumaeueu2

O motivo pelo qual pergunto é que preciso decidir qual média usar em uma tarefa de NLG, onde medi BLEU e ROUGE (onde BLEU é equivalente à precisão e ROUGE para recuperar). Como devo calcular a média dessas pontuações?


Talvez seja assim que a definição vai!
Aditya

1
@ Aditya, você está certo, foi apenas uma pergunta mal formulada sobre definição. Eu o editei reformulando para algo mais concreto.
Bruno Lubascher 12/08

Respostas:


3

A pontuação Fı é preferida à simples precisão da classificação, a fim de combater o problema de conjuntos de dados desequilibrados; se o que você está procurando ocorre apenas raramente, de qualquer maneira, um classificador ingênuo sempre pode dizer não e parece estar funcionando muito bem! Uma variante em Fı é Fß, onde

Fß = (1 + ß²) × ​​[(P × R) ÷ ((ß² × P) + R)]

Varie ß para equilibrar precisão e recuperação. Quanto ao porquê F ou G, acredito que seja empírico - você não diz se está classificando ou agrupando em seu próprio aplicativo?


1
Obrigado pela resposta, mas acho que você perdeu a minha pergunta. Não pretendo comparar F1 versus precisão simples. , em vez disso, pretendo comparar as médias harmônica versus geométrica e aritmética . Não estou classificando ou agrupando tradicionalmente, tenho uma tarefa NLG , medida em BLEU e ROUGE, que pode ser calculada com um dos meios, mas não sei ao certo qual escolher.
Bruno Lubascher 12/08

-1

Se Precision e Recall forem semelhantes, F1 é uma boa medida única para comparar diferentes modelos.

Curto e grosso :)


Eu não vejo como você até tentou responder a minha pergunta ...
de Bruno Lubascher
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.