Precisão Média Média vs Classificação Recíproca Média

Estou tentando entender quando é apropriado usar o MAP e quando o MRR deve ser usado. Eu encontrei esta apresentação que afirma que o MRR é melhor utilizado quando o número de resultados relevantes é menor que 5 e melhor quando é 1. Em outros casos, o MAP é apropriado. Eu tenho duas perguntas:

Eu realmente não entendo por que isso é assim.
Não consigo encontrar uma referência citável para esta reivindicação.

Por favor, note que eu não tenho um histórico estatístico muito forte, portanto a explicação de um leigo ajudaria muito. Obrigado.

information-retrieval average-precision

— KG
fonte

Imagine que você tenha algum tipo de consulta e seu sistema de recuperação retornou uma lista classificada dos 20 principais itens que considera mais relevantes para sua consulta. Agora imagine também que existe uma verdade fundamental nisso, que na verdade podemos dizer para cada um dos 20 que "sim" é uma resposta relevante ou "não" não é.

A classificação recíproca média (MRR) fornece uma medida geral de qualidade nessas situações, mas a MRR se preocupa apenas com o item relevante com a classificação mais alta . Se o seu sistema retornar um item relevante no terceiro ponto mais alto, é com isso que a MRR se preocupa. Não importa se os outros itens relevantes (supondo que existam) são classificados como número 4 ou número 20.

Portanto, o MRR é apropriado para julgar um sistema em que (a) há apenas um resultado relevante ou (b) em seu caso de uso, você realmente se importa apenas com o mais bem classificado. Isso pode ser verdade em alguns cenários de pesquisa na web, por exemplo, onde o usuário só quer encontrar uma coisa para clicar, não precisa mais. (Embora isso seja tipicamente verdade, ou você ficaria mais satisfeito com uma pesquisa na web que retornou dez respostas muito boas e você pode fazer seu próprio julgamento sobre qual delas clicar ...?)

A precisão média média (PAM) considera se todos os itens relevantes tendem a ter uma classificação alta. Portanto, no exemplo dos 20 principais, não importa apenas se há uma resposta relevante no número 3, mas também se importa se todos os itens "sim" nessa lista estão agrupados no topo.

Quando há apenas uma resposta relevante no seu conjunto de dados, o MRR e o MAP são exatamente equivalentes na definição padrão do MAP.

Para saber por que, considere os seguintes exemplos de brinquedos, inspirados nos exemplos desta postagem no blog :

Exemplo 1

Consulta: "Capital da Califórnia"

Resultados da classificação: "Portland", "Sacramento", "Los Angeles"

Resultados classificados (relevância binária): [0, 1, 0]

Número de respostas corretas possíveis: 1

$\frac{1}{2}$

$\frac{0}{1}$

$\frac{1}{2}$

$\frac{1}{3}$

$\frac{1}{m} * \frac{1}{2} = \frac{1}{1}*\frac{1}{2} = 0.5$

Como você pode ver, a precisão média de uma consulta com exatamente uma resposta correta é igual à classificação recíproca do resultado correto. Daqui resulta que o MRR de uma coleção dessas consultas será igual ao seu MAP. No entanto, conforme ilustrado no exemplo a seguir, as coisas divergem se houver mais de uma resposta correta:

Exemplo 2

Consulta: "Cidades da Califórnia"

Resultados da classificação: "Portland", "Sacramento", "Los Angeles"

Resultados classificados (relevância binária): [0, 1, 1]

Número de respostas corretas possíveis: 2

$\frac{1}{2}$

$\frac{0}{1}$

$\frac{1}{2}$

$\frac{2}{3}$

$\frac{1}{m} * \big[ \frac{1}{2} + \frac{2}{3} \big] = \frac{1}{2} * \big[ \frac{1}{2} + \frac{2}{3} \big] = 0.38$

Como tal, a escolha de MRR x MAP nesse caso depende inteiramente de você querer ou não os rankings após o primeiro hit correto influenciar.

— Dan Stowell
fonte