Quando a precisão é mais importante em relação à recordação?


16

Alguém pode me dar alguns exemplos em que a precisão é importante e alguns exemplos em que a lembrança é importante?


f1-score é o caminho a percorrer, meu amigo
Neoares

Mais do que o mais importante entre os dois, você deve perguntar quais são os casos em que deseja maximizar um sobre o outro (o que não necessariamente torna o outro "menos" importante).
gented

Respostas:


26
  • Para modelagem de dados de câncer raro, qualquer coisa que não represente falso-negativo é crime. Lembre-se é uma medida melhor que precisão.
  • Para as recomendações do YouTube, os falsos negativos são menos preocupantes. A precisão é melhor aqui.

1
@ fateh A principal diferença é FP vs FN. A recomendação do YouTube não enfatiza a FN, mas as decisões clínicas do hospital devem.
HelloWorld

11

Posso apresentar meu caso real quando a lembrança é mais importante:

Temos milhares de clientes gratuitos se registrando em nosso site toda semana. A equipe do call center deseja ligar para todos eles, mas é impossível, então eles me pedem para selecionar aqueles com boas chances de serem compradores (com temperatura alta é como nos referimos a eles). Não queremos ligar para um cara que não vai comprar (então a precisão não é importante), mas para nós é muito importante que todos eles com alta temperatura estejam sempre na minha seleção, para que não fiquem sem comprar. Isso significa que meu modelo precisa ter um recall alto , não importa se a precisão vai para o inferno.

Espero que ajude! Miguel.


6

Embora em algumas situações a recordação possa ser mais importante que a precisão (ou vice-versa), você precisa de ambas para obter uma avaliação mais interpretável.

Por exemplo, como observado pelo @SmallChess, na comunidade médica, um falso negativo é geralmente mais desastroso do que um falso positivo para diagnósticos preliminares. Portanto, pode-se considerar o recall como uma medida mais importante. No entanto, você pode ter 100% de rechamada e ainda ter um modelo inútil: se seu modelo sempre produzir uma previsão positiva, ele teria 100% de rechamada, mas será completamente pouco informativo.

É por isso que analisamos várias métricas:


6

O que é mais importante depende simplesmente de quais são os custos de cada erro.

A precisão tende a envolver custos diretos; quanto mais falsos positivos você tiver, maior será o custo por verdadeiro positivo. Se seus custos são baixos, a precisão não importa tanto. Por exemplo, se você tiver endereços de e-mail de 1 milhão e custará US $ 10 para enviar um e-mail para todos eles, provavelmente não vale a pena tentar identificar as pessoas com maior probabilidade de responder, em vez de apenas enviá-las com spam.

Lembre-se, por outro lado, tende a envolver custos de oportunidade; você está perdendo oportunidades toda vez que tem um falso negativo. Portanto, a recordação é menos importante quando o valor marginal da identificação correta adicional é pequeno; por exemplo, existem várias oportunidades, há pouca diferença entre elas e apenas um número limitado pode ser buscado. Por exemplo, suponha que você queira comprar uma maçã. Há 100 maçãs na loja e 10 delas são ruins. Se você tem um método de distinguir maçãs ruins que perdem 80% das boas, você identificará cerca de 18 maçãs boas. Normalmente, um recall de 20% seria terrível, mas se você quiser apenas cinco maçãs, perder essas outras 72 maçãs não importa.

Portanto, recordar é mais importante quando:

-O número de oportunidades é pequeno (se houvesse apenas 10 maçãs boas, é improvável que você encontrasse 5 boas com uma taxa de recall de apenas 20%)
-Há diferenças significativas entre as oportunidades (se algumas maçãs são melhores que outras , uma taxa de recall de 20% é suficiente para obter 5 maçãs boas, mas elas não serão necessariamente as melhores maçãs)
OU
-O benefício marginal das oportunidades permanece alto, mesmo para um grande número de oportunidades. Por exemplo, enquanto a maioria dos compradores não se beneficia muito com mais de 18 maçãs boas, a loja gostaria de ter mais de 18 maçãs para vender.

Assim, a precisão será mais importante do que recordar quando o custo de agir for alto, mas o custo de não agir for baixo. Observe que esses são os custos de atuar / não atuar por candidato, não "o custo de ter alguma ação" versus "o custo de não ter nenhuma ação". No exemplo da maçã, é o custo de comprar / não comprar uma maçã em particular, não o custo de comprar algumas maçãs versus o custo de não comprar nenhuma maçã; o custo de não comprar uma maçã em particular é baixo porque existem muitas outras maçãs. Como o custo de compra de uma maçã ruim é alto, mas o custo de passar uma determinada maçã boa é baixo, a precisão é mais importante nesse exemplo. Outros exemplos seriam a contratação quando houver muitos candidatos semelhantes.

A rechamada é mais importante que a precisão quando o custo de atuação é baixo, mas o custo de oportunidade de repassar um candidato é alto. Há o exemplo de spam que eu dei anteriormente (o custo de perder um endereço de email não é alto, mas o custo de enviar um email para alguém que não responde é ainda mais baixo) e outro exemplo seria identificar candidatos a a vacina contra a gripe: dê a vacina contra alguém que não precisa dela, e custa alguns dólares, não dê a alguém que precise, e eles poderão morrer. Por esse motivo, os planos de saúde geralmente oferecem a vacina contra a gripe a todos, desconsiderando totalmente a precisão.


2

A acumulação tem uma ótima resposta sobre como você pode criar mais exemplos explicando a importância da precisão sobre a revocação e vice-versa.

A maioria das outras respostas é convincente quanto à importância da recordação, então pensei em dar um exemplo sobre a importância da precisão. Este é um exemplo completamente hipotético, mas é o caso.

Digamos que um modelo de aprendizado de máquina seja criado para prever se um determinado dia é um bom dia para o lançamento de satélites ou não com base no clima.

  • Se o modelo predizer acidentalmente que um bom dia para lançar satélites é ruim ( falso negativo ), perderemos a chance de lançar. Isso não é grande coisa.

  • No entanto, se o modelo predizer que é um bom dia, mas na verdade é um dia ruim para lançar os satélites ( falso positivo ), os satélites poderão ser destruídos e o custo dos danos será de bilhões.

Este é um caso em que a precisão é mais importante que a recordação.


1

Tive dificuldade em lembrar a diferença entre precisão e recordação, até criar esse mnemônico para mim:

A PREcisão é realizar os testes de pré-gravidez, como a CHAMADA é para o centro da CHAMADA.

Com um teste de gravidez, o fabricante do teste precisa ter certeza de que um resultado positivo significa que a mulher está realmente grávida. As pessoas podem reagir a um teste positivo de repente se casando ou comprando uma casa (se muitos consumidores obtiverem falsos positivos e sofrerem enormes custos sem motivo, o fabricante do teste não terá clientes). Fiz um teste de gravidez falso negativo uma vez, e isso só levou mais algumas semanas para descobrir que estava grávida ... a verdade finalmente se tornou PARTE. (Chalaça pretendida.)

Agora imagine um call center para reivindicações de seguro. A maioria das reclamações fraudulentas é telefonada às segundas-feiras, depois que os fraudadores se conectam com os colaboradores e criam suas histórias inventadas ("digamos que o carro foi roubado") no fim de semana. Qual é a melhor coisa para uma companhia de seguros fazer às segundas-feiras? Talvez eles devam sintonizar para favorecer a recordação acima da precisão. É muito melhor sinalizar mais reivindicações como positivas (provável fraude) para uma investigação mais aprofundada do que perder parte da fraude e pagar em dinheiro que nunca deveria ter sido pago. Um falso positivo (sinalizado para análise adicional como possivelmente fraude, mas a perda do cliente foi real) provavelmente pode ser resolvido com a atribuição de um ajustador experiente, que pode insistir em um relatório policial, solicitar vídeo de segurança da construção etc. Um falso negativo (aceitando um fraudador "

F1 é ótimo, mas entender como o teste / previsão será usado é realmente importante, porque sempre há algum risco de estar errado ... você quer saber o quão terríveis serão as consequências se estiverem erradas.


1

Detecção de spam por email : este é um dos exemplos em que o Precision é mais importante que o Recall .

Recapitulação rápida :

  • Precisão : informa quando você prevê algo positivo, quantas vezes ele foi realmente positivo. enquanto que,

  • Lembre-se : Isso mostra os dados positivos reais, quantas vezes você previu corretamente.

Dito isto, em caso de detecção de e-mail de spam, deve-se ficar bem se um e-mail de spam (caso positivo) for deixado sem ser detectado e não for para a pasta de spam , mas , se um e-mail for bom (negativo), ele não deverá ser acessado. pasta de spam. isto é, Precison é mais importante. (Se o modelo prevê algo positivo (por exemplo, spam), é melhor que seja spam. Caso contrário, você poderá perder e-mails importantes).

Espero que isso esclareça.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.