Devo tomar decisões com base em medidas de avaliação micro-médias ou macro-médias?

Fiz uma validação cruzada de 10 vezes em diferentes algoritmos de classificação binária, com o mesmo conjunto de dados e recebi os resultados médios de Micro e Macro. Deve-se mencionar que esse era um problema de classificação de vários rótulos.

No meu caso, verdadeiros negativos e verdadeiros positivos são igualmente ponderados. Isso significa que prever corretamente os verdadeiros negativos é igualmente importante como prever corretamente os verdadeiros positivos.

As medidas micro-médias são inferiores às macro médias. Aqui estão os resultados de uma rede neural e máquina de vetores de suporte:

insira a descrição da imagem aqui

Também executei um teste de porcentagem dividida no mesmo conjunto de dados com outro algoritmo. Os resultados foram:

insira a descrição da imagem aqui

Eu preferiria comparar o teste de porcentagem com os resultados macro-médios, mas isso é justo? Não acredito que os resultados macro-médios sejam tendenciosos porque os verdadeiros positivos e os negativos são igualmente ponderados, mas, novamente, eu me pergunto se isso é o mesmo que comparar maçãs com laranjas.

ATUALIZAR

Com base nos comentários, mostrarei como as médias micro e macro são calculadas.

Tenho 144 rótulos (os mesmos que recursos ou atributos) que desejo prever. A precisão, a rechamada e a medida F são calculadas para cada etiqueta.

---------------------------------------------------
LABEL1 | LABEL2 | LABEL3 | LABEL4 | .. | LABEL144
---------------------------------------------------
   ?   |    ?   |    ?   |   ?    | .. |     ?
---------------------------------------------------

Considerando uma medida de avaliação binária B (tp, tn, fp, fn) que é calculada com base nos verdadeiros positivos (tp), verdadeiros negativos (tn), falsos positivos (fp) e falsos negativos (fn). As macro e micro médias de uma medida específica podem ser calculadas da seguinte maneira:

insira a descrição da imagem aqui

Usando essas fórmulas, podemos calcular as médias micro e macro da seguinte maneira:

insira a descrição da imagem aqui

Assim, as medidas micro-médias adicionam todos os tp, fp e fn (para cada etiqueta), após o que uma nova avaliação binária é feita. As medidas com média macro adicionam todas as medidas (Precisão, Rechamada ou Medida F) e dividem com o número de etiquetas, mais semelhante à média.

Agora, a pergunta é qual usar?

machine-learning cross-validation

— Kenci
fonte

Quando você pergunta qual usar, qual é o uso pretendido? Escolhendo entre os dois métodos, resumindo resultados ou algo mais?

— 23815 Sean Easter

O uso pretendido é descobrir qual modelo é o mais superior e contar algo sobre o desempenho dele. Descobri que as micro medidas são superiores, de acordo com: Forman, George e Martin Scholz. "Maçãs para maçãs em estudos de validação cruzada: armadilhas na medição de desempenho do classificador". ACM SIGKDD Explorations Newsletter 12.1 (2010): 49-57.

— Kenci

@ Kenci, acredito que você deve postar isso como resposta à sua própria pergunta e confirmá-la como a resposta certa. Obrigado pela referência!

— fnl 27/07/2015

FYI Micro vs placar de F1 ponderado

— Franck Dernoncourt 28/12

Se você acha que todos os rótulos têm o mesmo tamanho (aproximadamente o mesmo número de instâncias), use qualquer um.

Se você acha que existem marcadores com mais instâncias que outros e se deseja inclinar sua métrica para as mais preenchidas, use o micromedia .

Se você acha que há rótulos com mais instâncias que outros e se deseja influenciar sua métrica para as menos populosas (ou pelo menos não deseja influenciar para as mais populosas), use a macromedia .

Se o resultado do micromedia for significativamente menor que o resultado da macromedia, significa que você possui algumas classificações grosseiras nos rótulos mais populosos, enquanto os rótulos menores provavelmente estão classificados corretamente. Se o resultado da macromedia for significativamente menor que o resultado da micromedia, significa que os rótulos menores são mal classificados, enquanto os maiores são provavelmente classificados corretamente.

Se você não tiver certeza do que fazer, continue com as comparações nas médias micro e macro :)

Este é um bom artigo sobre o assunto.

— felipeduque
fonte