Atualmente, estou usando vários classificadores diferentes em várias entidades extraídas do texto e usando precisão / recall como um resumo de quão bem cada classificador separado é executado em um determinado conjunto de dados.
Gostaria de saber se existe uma maneira significativa de comparar o desempenho desses classificadores de maneira semelhante, mas que também leva em consideração o número total de cada entidade nos dados de teste que estão sendo classificados?
Atualmente, estou usando precisão / recall como uma medida de desempenho, portanto, pode ter algo como:
Precision Recall
Person classifier 65% 40%
Company classifier 98% 90%
Cheese classifier 10% 50%
Egg classifier 100% 100%
No entanto, o conjunto de dados em que estou executando esses dados pode conter 100 mil pessoas, cinco mil empresas, 500 queijos e 1 ovo.
Existe uma estatística resumida que posso adicionar à tabela acima, que também leva em consideração o número total de cada item? Ou existe alguma maneira de medir o fato de que, por exemplo, 100% prec / rec no classificador Egg pode não ser significativo com apenas 1 item de dados?
Digamos que tivéssemos centenas desses classificadores, acho que estou procurando uma boa maneira de responder perguntas como "Quais classificadores estão com baixo desempenho? Quais classificadores não têm dados de teste suficientes para saber se estão com baixo desempenho?".