Escolhendo entre as regras de pontuação adequadas

A maioria dos recursos sobre regras de pontuação adequadas menciona várias regras de pontuação diferentes, como perda de log, pontuação de Brier ou pontuação esférica. No entanto, eles geralmente não dão muita orientação sobre as diferenças entre eles. (Anexo A: Wikipedia .)

Escolher o modelo que maximiza a pontuação logarítmica corresponde à escolha do modelo de máxima verossimilhança, o que parece ser um bom argumento para usar a pontuação logarítmica. Existem justificativas semelhantes para a pontuação Brier ou esférica ou outras regras de pontuação? Por que alguém usaria uma dessas, em vez da pontuação logarítmica?

— Ben Kuhn
fonte

Algumas dicas estão na nomenclatura. "Custo funcional" é de otimização ou engenharia de sistema de controle ideal. Não há "melhor". Ter um "bem" significa que você deve ter uma medida de bondade. Há um número infinito de famílias de medidas da bondade. Um exemplo trivial é: qual é o melhor caminho? Se você está marchando para a sua execução - torne-a longa e agradável. Se você estiver indo para o seu metal Fields, faça-o mais curto. A experiência do sistema ajuda a selecionar a medida da bondade. Quando você tem a medida da bondade, pode encontrar o "melhor".

— EngrStudent - Restabelece Monica

Você pode estar interessado em Merkle & Steyvers, "Escolhendo uma regra de pontuação estritamente adequada" (2013, Decision Analysis ) .

— S. Kolassa - Restabelece Monica

Tomei a liberdade de editar o título para torná-lo mais preciso / informativo. Se o interpretei mal, desculpe e sinta-se à vontade para reverter a alteração.

— Richard Hardy

Por que alguém usaria uma dessas, em vez da pontuação logarítmica?

Então, idealmente, sempre distinguimos ajustar um modelo de tomar uma decisão . Na metodologia bayesiana, a pontuação e a seleção de modelos sempre devem ser feitas usando a probabilidade marginal . Você então usa o modelo para fazer previsões probabilísticas e sua função de perda informa como agir sobre essas previsões.

Infelizmente, no mundo real, o desempenho computacional geralmente determina que conflitemos a seleção do modelo e a tomada de decisão e, portanto, usamos uma função de perda para ajustar-se aos nossos modelos. É aqui que a subjetividade na seleção de modelos se aproxima, porque você precisa adivinhar quanto tipos diferentes de erros custarão. O exemplo clássico é um diagnóstico de câncer: superestimar a probabilidade de câncer de alguém não é bom, mas subestimar é muito pior.

Como um aparte, se você estiver procurando orientação sobre como escolher uma regra de pontuação, também poderá procurar orientação sobre como escolher uma função de perda ou projetar uma função de utilidade, pois acho que a literatura sobre esses dois tópicos é muito mais volumoso.

— Andy Jones
fonte

1) Você está dizendo que a pontuação do Brier é essencialmente uma "função de perda disfarçada" - isto é, mesmo que se disfarce como uma regra de pontuação / comparação independente da função de utilidade, ela é realmente usada porque as pessoas têm preferências específicas sobre os tipos de erros que o modelo faz?

— Ben Kuhn

2) Você tem exemplos específicos de configurações nas quais alguém pode escolher a pontuação Brier ou esférica em vez da pontuação de log (= probabilidade marginal, pelo que entendi) por esses motivos?

— Ben Kuhn

3) Por que seria melhor incorporar suas premissas de função de perda / utilidade no modelo do que ajustar-se à probabilidade marginal e usar sua função de perda / utilidade ao tomar a decisão? Parece que, para os algoritmos ideais de aprendizado, não deve haver diferença entre eles.

— Ben Kuhn

1) Sim. 2) Não pessoalmente, não. As regras de pontuação não estão "na moda" na parte de ML em que trabalho. Tendo uma rápida olhada no Scholar , parece que elas são um pouco datadas em geral. Este artigo parece interessante para você. 3) Por desempenho, eu quis dizer "desempenho computacional", não "desempenho preditivo".

— Andy Jones