Como escolher um bom ponto de operação a partir de curvas de recall de precisão?

11

Existe algum método padrão para determinar um ponto de operação "ideal" em uma curva de recuperação de precisão ? (ou seja, determinar o ponto na curva que oferece uma boa relação entre precisão e recall)

obrigado

machine-learning precision-recall

— Amelio Vazquez-Reina
fonte

12

A definição de "ideal" dependerá, é claro, de seus objetivos específicos, mas aqui estão alguns métodos relativamente "padrão":

Ponto da taxa de erro igual (EER): o ponto em que a precisão é igual à recuperação. Para algumas pessoas, isso parece um ponto de operação "natural".
Uma versão refinada e com mais princípios do exposto acima é especificar o custo dos diferentes tipos de erros e otimizar esse custo. Digamos que classificar incorretamente um item (um erro de precisão) seja duas vezes mais caro do que perder um item completamente (erro na retirada). Então o melhor ponto de operação é aquele em que (1 - recall) = 2 * (1 - precisão).
Em alguns problemas, as pessoas têm uma taxa mínima aceitável natural de precisão ou recall. Digamos que você saiba que, se mais de 20% dos dados recuperados estiverem incorretos, os usuários deixarão de usar seu aplicativo. Então é natural definir a precisão em 80% (ou um pouco menor) e aceitar qualquer recall que você tiver nesse momento.

— SheldonCooper
fonte

2

Seguindo os segundo e terceiro pontos da SheldonCooper: A escolha ideal é que outra pessoa faça a escolha, na forma de um limite (ponto 3) ou uma troca de custo-benefício (ponto 2). E talvez a melhor maneira de oferecer a eles a escolha seja com uma curva ROC .

— conjugado
fonte

1

Não sei ao certo como isso é "padrão", mas uma maneira seria escolher o ponto mais próximo de (1, 1) - ou seja, 100% de recall e 100% de precisão. Esse seria o equilíbrio ideal entre as duas medidas. Isso pressupõe que você não valoriza a precisão em vez de rechamada ou vice-versa.

— Hadley é meu herói
fonte