Fiz uma validação cruzada de 10 vezes em diferentes algoritmos de classificação binária, com o mesmo conjunto de dados e recebi os resultados médios de Micro e Macro. Deve-se mencionar que esse era um problema de classificação de vários rótulos.
No meu caso, verdadeiros negativos e verdadeiros positivos são igualmente ponderados. Isso significa que prever corretamente os verdadeiros negativos é igualmente importante como prever corretamente os verdadeiros positivos.
As medidas micro-médias são inferiores às macro médias. Aqui estão os resultados de uma rede neural e máquina de vetores de suporte:
Também executei um teste de porcentagem dividida no mesmo conjunto de dados com outro algoritmo. Os resultados foram:
Eu preferiria comparar o teste de porcentagem com os resultados macro-médios, mas isso é justo? Não acredito que os resultados macro-médios sejam tendenciosos porque os verdadeiros positivos e os negativos são igualmente ponderados, mas, novamente, eu me pergunto se isso é o mesmo que comparar maçãs com laranjas.
ATUALIZAR
Com base nos comentários, mostrarei como as médias micro e macro são calculadas.
Tenho 144 rótulos (os mesmos que recursos ou atributos) que desejo prever. A precisão, a rechamada e a medida F são calculadas para cada etiqueta.
---------------------------------------------------
LABEL1 | LABEL2 | LABEL3 | LABEL4 | .. | LABEL144
---------------------------------------------------
? | ? | ? | ? | .. | ?
---------------------------------------------------
Considerando uma medida de avaliação binária B (tp, tn, fp, fn) que é calculada com base nos verdadeiros positivos (tp), verdadeiros negativos (tn), falsos positivos (fp) e falsos negativos (fn). As macro e micro médias de uma medida específica podem ser calculadas da seguinte maneira:
Usando essas fórmulas, podemos calcular as médias micro e macro da seguinte maneira:
Assim, as medidas micro-médias adicionam todos os tp, fp e fn (para cada etiqueta), após o que uma nova avaliação binária é feita. As medidas com média macro adicionam todas as medidas (Precisão, Rechamada ou Medida F) e dividem com o número de etiquetas, mais semelhante à média.
Agora, a pergunta é qual usar?