Recentemente, tive que escolher uma métrica para avaliar algoritmos de classificação de vários rótulos e cheguei a esse assunto, o que foi realmente útil. Aqui estão algumas adições à resposta do stpk, que foram úteis para fazer uma escolha.
- O MAP pode ser adaptado a problemas de vários rótulos, ao custo de uma aproximação
- O MAP não precisa ser calculado em k, mas a versão com vários rótulos pode não ser adaptada quando a classe negativa é preponderante
- O MAP e (N) DCG podem ser reescritos como uma média ponderada dos valores de relevância classificados
Detalhes
Vamos nos concentrar na precisão média (AP), já que a precisão média média (MAP) é apenas uma média dos APs em várias consultas. O AP é definido corretamente nos dados binários como a área sob a curva de precisão de recuperação, que pode ser reescrita como a média das precisões em cada item positivo. (consulte o artigo da wikipedia no MAP ) Uma possível aproximação é defini-la como a média das precisões em cadaitem. Infelizmente, perdemos a boa propriedade de que os exemplos negativos classificados no final da lista não têm impacto no valor de AP. (Isso é particularmente triste quando se trata de avaliar um mecanismo de pesquisa, com exemplos muito mais negativos do que positivos. Uma solução possível é subamostrar os exemplos negativos, à custa de outras desvantagens, por exemplo, as consultas com itens mais positivos se tornarão igualmente difícil para as consultas com poucos exemplos positivos.)
Por outro lado, essa aproximação tem a boa propriedade que generaliza bem para o caso de vários rótulos. De fato, no caso binário, a precisão na posição k também pode ser interpretada como a relevância média antes da posição k, onde a relevância de um exemplo positivo é 1 e a relevância de um exemplo negativo é 0. Essa definição se estende naturalmente a o caso em que existem mais de dois níveis diferentes de relevância. Nesse caso, AP também pode ser definido como a média das médias das relevâncias em cada posição.
k
WA Pk=1Kregistro( Kk)
K
WD CGk= 1registro( k + 1 )
A partir dessas duas expressões, podemos deduzir que - AP pesa os documentos de 1 a 0. - O DCG pesa os documentos independentemente do número total de documentos.
Nos dois casos, se houver exemplos muito mais irrelevantes do que exemplos relevantes, o peso total do positivo pode ser desprezível. Para o AP, uma solução alternativa é subamostrar as amostras negativas, mas não sei como escolher a proporção da subamostragem, bem como torná-lo dependente da consulta ou do número de documentos positivos. Para o DCG, podemos cortá-lo em k, mas o mesmo tipo de pergunta surge.
Eu ficaria feliz em ouvir mais sobre isso, se alguém aqui trabalhou sobre o assunto.