Explicação intuitiva do logloss

Em várias competições de kaggle, a pontuação foi baseada em "logloss". Isso está relacionado ao erro de classificação.

Aqui está uma resposta técnica, mas estou procurando uma resposta intuitiva. Gostei muito das respostas para esta pergunta sobre a distância de Mahalanobis, mas o PCA não é logloss.

Posso usar o valor que meu software de classificação coloca, mas realmente não o entendo. Por que o usamos em vez de taxas verdadeiras / falsas positivas / negativas? Você pode me ajudar para que eu possa explicar isso para minha avó ou um novato no campo?

Também gosto e concordo com a citação:

você realmente não entende algo, a menos que possa explicar à sua avó
- Albert Einstein

Eu tentei responder isso sozinho antes de postar aqui.

Os links que não achei intuitivos ou realmente úteis incluem:

Estes são informativos e precisos. Eles são destinados a um público técnico. Eles não desenham uma figura simples, nem fornecem exemplos simples e acessíveis. Eles não foram escritos para minha avó.

interpretation intuition loss-functions

— EngrStudent
fonte

você não forneceu um link para sua resposta técnica

— bdeonovic

Quora.com/…

— Ehsan M. Kermani

@ EhsanM.Kermani - Não encontrei aqueles intuitivos como os de Mahalanobis que referenciei.

— EngrStudent

a entrada no site da Kaggle dá uma explicação concisa bonita de logloss

— bdeonovic

Encontre este link: exegetic.biz/blog/2015/12/making-sense-logarithmic-loss . Pode ajudar.

— precisa saber é o seguinte

Logloss é o logaritmo do produto de todas as probabilidades. Suponha que Alice tenha previsto:

com probabilidade 0.2, John matará Jack
com probabilidade 0,001, Maria se casará com João
com probabilidade 0,01, Bill é um assassino.

Aconteceu que Mary não se casou com John, Bill não é um assassino, mas John matou Jack. O produto das probabilidades, segundo Alice, é 0,2 * 0,999 * 0,99 = 0,197802

Bob previu:

com probabilidade 0,5, John matará Jack
com probabilidade 0,5, Maria se casará com João
com probabilidade 0,5, Bill é um assassino.

O produto é 0,5 * 0,5 * 0,5 = 0,125.

Alice é melhor preditora que Bob.

— user31264
fonte

por que o "produto de todas as probabilidades" funciona? Isso soa como um parente da maximização de expectativas.

— precisa saber é o seguinte

Você precisa de uma prova formal? Está na "resposta técnica" mencionada pelo iniciador de tópicos. Você precisa de uma "avó" informal pelo qual? Você diz: suponha que esse sujeito tenha feito previsões corretas. Qual é a probabilidade de que tudo aconteça como realmente aconteceu? Este é o produto das probabilidades.

— precisa saber é o seguinte

"produto de probabilidades" não é "avó". o log do produto das probabilidades é a soma das probabilidades do log, que eles usam na maximização das expectativas e denominam "expectativa". Eu acho que também é codificado na divergência KL. ... Acho que, na conversa com a avó, você poderia dizer "" provavelmente "= maior probabilidade geral de vários eventos. Existem dois valores" mais altos ": 1) maximizar a probabilidade combinada ou 2) minimizar a probabilidade combinada negativa. o aprendizado gosta de "descida em gradiente" ou minimização de danos. Perda de log é a probabilidade negativa escalada pelo tamanho da amostra e é minimizada.

— EngrStudent

Aqui, o link diz "exp (-loss) é a probabilidade média de uma previsão correta".

— EngrStudent

Eu gostei do bispo ref aqui . É a equação 4.108 e é a função de erro de entropia cruzada.

— EngrStudent