Dado
- um conjunto de dados com instâncias juntamente com classes em que cada instância pertence exatamente a uma classe
- um classificador multiclasse
Após o treinamento e o teste, basicamente tenho uma tabela com a classe verdadeira e a classe prevista para cada instância no conjunto de testes. Portanto, para cada instância, tenho uma correspondência ( ) ou uma falta ( ).
Como posso avaliar a qualidade da partida? O problema é que algumas classes podem ter muitos membros, ou seja, muitas instâncias pertencem a ela. Obviamente, se 50% de todos os pontos de dados pertencem a uma classe e meu classificador final está 50% correto no geral, não ganhei nada. Eu poderia muito bem ter feito um classificador trivial que gera a maior classe, independentemente da entrada.
Existe um método padrão para estimar a qualidade de um classificador com base nos resultados conhecidos do conjunto de testes de correspondências e acertos para cada classe? Talvez seja importante distinguir as taxas de correspondência para cada classe em particular?
A abordagem mais simples que consigo pensar é excluir as correspondências corretas da maior classe. O quê mais?