É apropriado usar uma regra de pontuação inadequada quando o objetivo é realmente prever, mas não inferência. Eu realmente não me importo se outro previsor está trapaceando ou não quando sou eu quem fará a previsão.
Regras de pontuação adequadas garantem que, durante o processo de estimativa, o modelo se aproxime do verdadeiro processo de geração de dados (DGP). Isso parece promissor porque, ao nos aproximarmos do verdadeiro DGP, também faremos o bem em termos de previsão sob qualquer função de perda. O problema é que na maioria das vezes (na realidade, quase sempre), nosso espaço de pesquisa de modelos não contém o verdadeiro DGP. Acabamos aproximando o verdadeiro DGP com alguma forma funcional que propomos.
Nesse cenário mais realista, se nossa tarefa de previsão é mais fácil do que descobrir toda a densidade do verdadeiro DGP, podemos realmente fazer melhor. Isto é especialmente verdade para a classificação. Por exemplo, o verdadeiro DGP pode ser muito complexo, mas a tarefa de classificação pode ser muito fácil.
Yaroslav Bulatov forneceu o seguinte exemplo em seu blog:
http://yaroslavvb.blogspot.ro/2007/06/log-loss-or-hinge-loss.html
Como você pode ver abaixo, a densidade real é instável, mas é muito fácil criar um classificador para separar os dados gerados por isso em duas classes. Simplesmente se classe 1 e se gera classe 2.x ≥ 0x < 0
Em vez de corresponder à densidade exata acima, propomos o modelo bruto abaixo, que está bem longe do verdadeiro DGP. No entanto, faz uma classificação perfeita. Isso é encontrado usando a perda de dobradiça, o que não é apropriado.
Por outro lado, se você decidir encontrar o verdadeiro DGP com perda de log (o que é apropriado), então você começa a ajustar alguns funcionais, pois não sabe qual a forma funcional exata de que precisa a priori. Mas, à medida que se esforça cada vez mais, você começa a classificar incorretamente as coisas.
Observe que nos dois casos usamos as mesmas formas funcionais. No caso de perda imprópria, degenerou em uma função de etapa que, por sua vez, aperfeiçoou a classificação. No caso apropriado, enlouqueceu tentando satisfazer todas as regiões da densidade.
Basicamente, nem sempre precisamos atingir o modelo verdadeiro para ter previsões precisas. Ou, às vezes, não precisamos realmente fazer o bem em todo o domínio da densidade, mas ser muito bom apenas em certas partes dele.