Como qualquer métrica, uma boa métrica é a melhor que o "bobo", por acaso, se você precisar adivinhar sem informações sobre as observações. Isso é chamado de modelo somente de interceptação nas estatísticas.
Essa suposição "burra" depende de 2 fatores:
- o número de classes
- o balanço de classes: sua prevalência no conjunto de dados observado
No caso da métrica LogLoss, uma métrica "conhecida" usual é dizer que 0,693 é o valor não informativo. Esta figura é obtida prevendo p = 0.5
para qualquer classe de um problema binário. Isso é válido apenas para problemas binários balanceados . Porque quando a prevalência de uma classe é de 10%, você sempre prediz p =0.1
essa classe. Essa será sua linha de base da previsão idiota, por acaso, porque a previsão 0.5
será mais estúpida .
I. Impacto do número de classes N
no dumb-logloss:
No caso equilibrado (toda classe tem a mesma prevalência), quando você prediz p = prevalence = 1 / N
para cada observação, a equação se torna simplesmente:
Logloss = -log(1 / N)
log
sendo Ln
, logaritmo neperiano para quem usa essa convenção.
No caso binário, N = 2
:Logloss = - log(1/2) = 0.693
Portanto, os burros-Loglosses são os seguintes:
II Impacto da prevalência de classes no dumb-Logloss:
uma. Caso de classificação binária
Nesse caso, prevemos sempre p(i) = prevalence(i)
e obtemos a seguinte tabela:
Portanto, quando as classes são muito desequilibradas (prevalência <2%), um logloss de 0,1 pode realmente ser muito ruim! Tal como uma precisão de 98% seria ruim nesse caso. Talvez o Logloss não seja a melhor métrica a ser usada
b. Caso de três classes
"Dumb" perde em função da prevalência - caso de três classes:
Podemos ver aqui os valores de casos binários e de três classes balanceados (0,69 e 1,1).
CONCLUSÃO
Uma perda de log de 0,69 pode ser boa em um problema de várias classes e muito ruim em um caso de polarização binária.
Dependendo do seu caso, é melhor você calcular a linha de base do problema para verificar o significado de sua previsão.
Nos casos tendenciosos, entendo que o logloss tem o mesmo problema que a precisão e outras funções de perda: fornece apenas uma medida global do seu desempenho. Portanto, você complementaria melhor seu entendimento com métricas focadas nas classes minoritárias (recall e precisão), ou talvez não usasse logloss.