As micro e macro médias (para qualquer métrica) calcularão coisas ligeiramente diferentes e, portanto, sua interpretação será diferente. Uma macro-média calculará a métrica independentemente para cada classe e, em seguida, obterá a média (portanto tratando todas as classes igualmente), enquanto uma micro-média agregará as contribuições de todas as classes para calcular a métrica média. Em uma configuração de classificação de várias classes, a micro-média é preferível se você suspeitar que possa haver um desequilíbrio de classe (ou seja, você pode ter muitos mais exemplos de uma classe do que de outras classes).
Para ilustrar o motivo, considere, por exemplo, a precisão . Vamos imaginar que você tenha um sistema de classificação multi-classe One-vs-All (existe apenas uma classe correta por exemplo) com quatro classes e os seguintes números quando testados:Pr = TP( TP+ FP)
- Classe A: 1 TP e 1 FP
- Classe B: 10 TP e 90 FP
- Classe C: 1 TP e 1 FP
- Classe D: 1 TP e 1 FP
Você pode ver facilmente que , enquanto .PrUMA= PrC= PrD= 0,5PrB=0.1
- Uma macro-média calculará:Pr=0.5+0.1+0.5+0.54=0.4
- Uma micro-média calculará:Pr=1+10+1+12+100+2+2=0.123
Esses são valores bastante diferentes para precisão. Intuitivamente, na macro-média, a precisão "boa" (0,5) das classes A, C e D está contribuindo para manter uma precisão geral "decente" (0,4). Embora isso seja tecnicamente verdadeiro (entre as classes, a precisão média é de 0,4), é um pouco enganador, pois um grande número de exemplos não é classificado corretamente. Esses exemplos correspondem predominantemente à classe B, portanto, apenas contribuem com 1/4 da média, apesar de constituírem 94,3% dos seus dados de teste. A micro-média capturará adequadamente esse desequilíbrio de classe e reduzirá a média geral de precisão para 0,123 (mais alinhada com a precisão da classe dominante B (0,1)).
Por razões computacionais, às vezes pode ser mais conveniente calcular médias de classe e depois macro-média. Se o desequilíbrio de classe é conhecido por ser um problema, existem várias maneiras de contorná-lo. Uma é reportar não apenas a macro-média, mas também seu desvio padrão (para 3 ou mais classes). Outra é calcular uma macro-média ponderada, na qual cada contribuição de classe para a média é ponderada pelo número relativo de exemplos disponíveis para ela. No cenário acima, obtemos:
Prmacro−mean=0.25⋅0.5+0.25⋅0.1+0.25⋅0.5+0.25⋅0.5=0.4
Prmacro−stdev=0.173
Prmacro−weighted=0.0189⋅0.5+0.943⋅0.1+0.0189⋅0.5+0.0189⋅0.5=0.009+0.094+0.009+0.009=0.123
O grande desvio padrão (0,173) já nos diz que a média de 0,4 não deriva de uma precisão uniforme entre as classes, mas pode ser mais fácil calcular a macro-média ponderada, que é essencialmente outra maneira de calcular a micro-média .