O Statistics.com publicou um problema da semana: A taxa de fraude em seguros residenciais é de 10% (uma em cada dez reivindicações é fraudulenta). Um consultor propôs um sistema de aprendizado de máquina para revisar reivindicações e classificá-las como fraude ou não-fraude. O sistema tem 90% de eficiência na detecção de reivindicações fraudulentas, mas apenas 80% de eficiência na classificação correta de reivindicações que não são de fraude (por engano, rotula uma em cada cinco como "fraude"). Se o sistema classifica uma reivindicação como fraudulenta, qual é a probabilidade de que ela seja realmente fraudulenta?
https://www.statistics.com/news/231/192/Conditional-Probability/?showtemplate=true
Eu e meu colega tivemos a mesma resposta de forma independente e ela não corresponde à solução publicada.
Nossa solução:
(.9 * .1) / ((. 9 * .1) + (. 2 * .9)) = 1/3
A solução deles:
Este é um problema em probabilidade condicional. (Também é um problema bayesiano, mas a aplicação da fórmula na regra de Bayes só ajuda a obscurecer o que está acontecendo.) Considere 100 alegações. 10 serão fraudulentos e o sistema rotulará corretamente 9 deles como "fraude". 90 reivindicações serão aceitáveis, mas o sistema classificará incorretamente 72 (80%) como "fraude". Portanto, um total de 81 reivindicações foram rotuladas como fraudulentos, mas apenas 9 deles, 11%, são realmente fraudulentos.
Quem estava certo