Suponha que seu modelo realmente preveja A com 40% de chance e B com 60% de chance. Em algumas circunstâncias, convém converter isso em uma classificação de que B acontecerá (já que é mais provável que A). Uma vez convertidas em uma classificação, todas as previsões são certas ou erradas, e existem várias maneiras interessantes de calcular essas respostas certas e erradas. Uma é a precisão direta (a porcentagem de respostas corretas). Outros incluem precisão e recall ou F-measure . Como outros já mencionaram, você pode querer observar a curva ROC . Além disso, seu contexto pode fornecer uma matriz de custos específica que recompense os verdadeiros positivos de maneira diferente dos verdadeiros negativos e / ou penalize os falsos positivos de maneira diferente dos falsos negativos.
No entanto, acho que não é isso que você realmente está procurando. Se você disse que B tem 60% de chance de acontecer e eu disse que tinha 99% de chance de acontecer, temos previsões muito diferentes, embora ambas sejam mapeadas para B em um sistema de classificação simples. Se A acontecer, você estará errado enquanto eu estiver errado, então espero receber uma penalidade mais dura do que você. Quando seu modelo realmente produz probabilidades, uma regra de pontuação é uma medida do desempenho de suas previsões de probabilidade. Especificamente, você provavelmente deseja uma regra de pontuação adequada , o que significa que a pontuação é otimizada para resultados bem calibrados.
BS=1N∑t=1N(ft−ot)2
ftot
É claro que o tipo de regra de pontuação que você escolher pode depender do tipo de evento que você está tentando prever. No entanto, isso deve lhe dar algumas idéias para pesquisar mais.
Vou adicionar uma ressalva de que, independentemente do que você faz, ao avaliar seu modelo dessa maneira, sugiro que você analise sua métrica em dados fora da amostra (ou seja, dados não usados para criar seu modelo). Isso pode ser feito através da validação cruzada . Talvez, de maneira mais simples, você possa construir seu modelo em um conjunto de dados e depois avaliar em outro (tomando cuidado para não permitir inferências do vazamento fora da amostra para a modelagem dentro da amostra).