Uma regra de pontuação é um meio de avaliar o palpite de um agente sobre as probabilidades associadas a um evento categórico, considerando um resultado (categórico) do evento. Dependendo do palpite e do resultado observado, a regra de pontuação atribui ao agente uma pontuação (um número real). Uma regra de pontuação deve atribuir pontuações de modo que, em média, o agente com a menor pontuação faça suposições mais precisas. (As convenções diferem quanto ao fato de as regras de pontuação serem estruturadas em termos de minimização ou maximização. Aqui estou adotando a visão de minimização.)
Uma propriedade importante das regras de pontuação é se elas são uma regra de pontuação adequada; isto é, se eles dão a menor pontuação média quando um agente adivinha as verdadeiras probabilidades (ou, em uma estrutura bayesiana subjetiva, eles dão a menor pontuação média posterior, dados os priores do próprio agente, quando um agente usa seus próprios graus de crença como suas suposições). No caso de um evento binário, o erro ao quadrado de 0 ou 1 (a pontuação de Brier) é uma regra de pontuação adequada, enquanto o erro absoluto não é. Por quê? Bem, o critério de propensão é baseado na média, e a média é a medida da tendência central que minimiza a soma das diferenças quadráticas, mas não precisa minimizar o erro absoluto.
Essa linha de pensamento sugere que, se substituirmos a média na definição de uma regra de pontuação adequada por outra funcional estatística, como a mediana, obteremos um tipo análogo de família rica de regras de pontuação adequadas. Não é irracional imaginar uma situação em que um agente queira minimizar sua pontuação média em vez de sua pontuação média. Na verdade, parece que não há regras de pontuação apropriadas para mediana e não triviais. Considerando o caso de um evento binário novamente, se a probabilidade verdadeira for menor que 1/2, a pontuação mediana de um agente será igual à pontuação atribuída ao agente quando o evento não ocorrer, independentemente da ocorrência do evento. probabilidade exata. Aparecem travessuras análogas se substituirmos a média por, digamos, a média geométrica.
Então, existe uma sensação de que, para que a teoria das regras de pontuação apropriadas funcione como pretendido, o funcional estatístico deve ser a média?
Sei que essa é uma pergunta vaga, e a melhor resposta provavelmente será uma explicação de por que a pergunta realmente não faz sentido; então, aqui está o contexto em que me pergunto, para ajudá-lo a não me confundir. Sou psicólogo da tomada de decisões e, muitas vezes, estou querendo quantificar o desempenho (desempenho preditivo, com validação cruzada ou ajuste de modelo post-hoc) de um modelo que mostra as probabilidades do que as pessoas escolherão. um cenário de decisão binária. A discussão acima sugere que eu deveria usar uma regra de pontuação adequada. Irritantemente, as regras de pontuação adequadas não estão na mesma escala das probabilidades. Eu me pego querendo, por exemplo, pegar a raiz quadrada do erro quadrado médio em vez de apenas olhar para o erro quadrado médio (ou seja, a pontuação média de Brier), mas no caso de uma tentativa, o RMSE é equivalente a erro absoluto, o que não é adequado, então eu não pensaria que modelos menos precisos são melhores? Evidentemente, não posso simplesmente mudar meu método de avaliar as regras de pontuação de uma em termos de meios para outra em termos de, por exemplo, medianas. Devo simplesmente me familiarizar com a escala de uma das regras de pontuação apropriadas usuais ou usar uma estatística de detecção de sinal como uma área sob a curva ROC ou d '?
Uma complicação adicional é que, para um estudo, estou analisando ajustes de modelo parametricamente inicializados, de acordo com Wagenmakers, Ratcliff, Gomez e Iverson (2004), o que significa que estou analisando gráficos de densidade de pontuações em vez de pontuações individuais. Então fica ainda menos claro se devo me preocupar com propensão ou com algum critério análogo.
Editar: veja este tópico de comentários no Reddit para mais algumas discussões.
Wagenmakers, E.J., Ratcliff, R., Gomez, P., & Iverson, GJ (2004). Avaliando a imitação de modelo usando a inicialização paramétrica. Jornal de Psicologia Matemática, 48 , 28–50. doi: 10.1016 / j.jmp.2003.11.004