Noções alternativas às regras de pontuação adequadas e uso de regras de pontuação para avaliar modelos


8

Uma regra de pontuação é um meio de avaliar o palpite de um agente sobre as probabilidades associadas a um evento categórico, considerando um resultado (categórico) do evento. Dependendo do palpite e do resultado observado, a regra de pontuação atribui ao agente uma pontuação (um número real). Uma regra de pontuação deve atribuir pontuações de modo que, em média, o agente com a menor pontuação faça suposições mais precisas. (As convenções diferem quanto ao fato de as regras de pontuação serem estruturadas em termos de minimização ou maximização. Aqui estou adotando a visão de minimização.)

Uma propriedade importante das regras de pontuação é se elas são uma regra de pontuação adequada; isto é, se eles dão a menor pontuação média quando um agente adivinha as verdadeiras probabilidades (ou, em uma estrutura bayesiana subjetiva, eles dão a menor pontuação média posterior, dados os priores do próprio agente, quando um agente usa seus próprios graus de crença como suas suposições). No caso de um evento binário, o erro ao quadrado de 0 ou 1 (a pontuação de Brier) é uma regra de pontuação adequada, enquanto o erro absoluto não é. Por quê? Bem, o critério de propensão é baseado na média, e a média é a medida da tendência central que minimiza a soma das diferenças quadráticas, mas não precisa minimizar o erro absoluto.

Essa linha de pensamento sugere que, se substituirmos a média na definição de uma regra de pontuação adequada por outra funcional estatística, como a mediana, obteremos um tipo análogo de família rica de regras de pontuação adequadas. Não é irracional imaginar uma situação em que um agente queira minimizar sua pontuação média em vez de sua pontuação média. Na verdade, parece que não há regras de pontuação apropriadas para mediana e não triviais. Considerando o caso de um evento binário novamente, se a probabilidade verdadeira for menor que 1/2, a pontuação mediana de um agente será igual à pontuação atribuída ao agente quando o evento não ocorrer, independentemente da ocorrência do evento. probabilidade exata. Aparecem travessuras análogas se substituirmos a média por, digamos, a média geométrica.

Então, existe uma sensação de que, para que a teoria das regras de pontuação apropriadas funcione como pretendido, o funcional estatístico deve ser a média?

Sei que essa é uma pergunta vaga, e a melhor resposta provavelmente será uma explicação de por que a pergunta realmente não faz sentido; então, aqui está o contexto em que me pergunto, para ajudá-lo a não me confundir. Sou psicólogo da tomada de decisões e, muitas vezes, estou querendo quantificar o desempenho (desempenho preditivo, com validação cruzada ou ajuste de modelo post-hoc) de um modelo que mostra as probabilidades do que as pessoas escolherão. um cenário de decisão binária. A discussão acima sugere que eu deveria usar uma regra de pontuação adequada. Irritantemente, as regras de pontuação adequadas não estão na mesma escala das probabilidades. Eu me pego querendo, por exemplo, pegar a raiz quadrada do erro quadrado médio em vez de apenas olhar para o erro quadrado médio (ou seja, a pontuação média de Brier), mas no caso de uma tentativa, o RMSE é equivalente a erro absoluto, o que não é adequado, então eu não pensaria que modelos menos precisos são melhores? Evidentemente, não posso simplesmente mudar meu método de avaliar as regras de pontuação de uma em termos de meios para outra em termos de, por exemplo, medianas. Devo simplesmente me familiarizar com a escala de uma das regras de pontuação apropriadas usuais ou usar uma estatística de detecção de sinal como uma área sob a curva ROC ou d '?

Uma complicação adicional é que, para um estudo, estou analisando ajustes de modelo parametricamente inicializados, de acordo com Wagenmakers, Ratcliff, Gomez e Iverson (2004), o que significa que estou analisando gráficos de densidade de pontuações em vez de pontuações individuais. Então fica ainda menos claro se devo me preocupar com propensão ou com algum critério análogo.

Editar: veja este tópico de comentários no Reddit para mais algumas discussões.

Wagenmakers, E.J., Ratcliff, R., Gomez, P., & Iverson, GJ (2004). Avaliando a imitação de modelo usando a inicialização paramétrica. Jornal de Psicologia Matemática, 48 , 28–50. doi: 10.1016 / j.jmp.2003.11.004


Estou certo de que você está fazendo duas perguntas: 1 - O "adequado" pode ser redefinido em termos da pontuação média, em vez da pontuação esperada de uma determinada previsão? 2 - Existem pontuações adequadas para probabilidades que estão na escala da probabilidade?
Fabian #

(1) Tenho certeza de que a resposta a essa pergunta é "não"; o que estou perguntando é se faz sentido redefinir "apropriado" em termos de algo que não seja a média (ou seja, expectativa). (2) Sim, é uma pergunta à qual gostaria de responder, mas como a resposta é provavelmente provavelmente "não", acho que meu acompanhamento seria "Então, qual é uma boa regra de pontuação interpretável de uma maneira que se relaciona naturalmente?" às probabilidades? "
Kodiologist

1
Sobre (1), o seguinte artigo parece relacionado à sua pergunta: ssc.upenn.edu/~fdiebold/papers/paper118/DieboldShin_SED.pdf Os autores examinam um caso em que o interesse não está na pontuação esperada, mas na distribuição de pontuações. Curiosamente, eles novamente acabam minimizando as pontuações esperadas de uma determinada forma (consulte as Proposições 2.2 e 3.1).
Fabian

Infelizmente, parece que esse artigo trata de previsões do mesmo tipo que o DV, em oposição a este caso em que estou perguntando sobre suposições sobre a probabilidade de um evento, em vez de adivinhar o evento mais provável. As suposições são probabilidades, enquanto o DV é realizado de maneira discreta.
Kodiologist

Respostas:


6

Ao contrário do que você disse sobre travessuras da média geométrica, existem realmente regras de pontuação adequadas para a média geométrica.

A média geométrica de uma variável aleatória é igual a . Por isso minimizando a média geométrica de uma pontuação aleatório corresponde a minimizar a média aritmética de um resultado aleatório . Portanto, se é uma regra de pontuação adequada padrão (onde é a pontuação que você obtém se você prever uma probabilidade o evento acontecer), então é uma regra de pontuação adequada para a média geométrica.e E ( log XXeE(logX)SlogSf(p^)f(p^)p^g(p^)=logf(p^)

Da mesma forma, a média harmônica de é , então é uma regra de pontuação apropriada para harmônicos . (O sinal negativo está lá e, portanto, a transformação de coordenadas é monótona.)XE(X1)1g(p^)=f(p^)1

Isso funciona para qualquer tendência central que seja a média aritmética em um espaço monotonicamente transformado. O problema é que a mediana não funciona assim. De maneira mais geral, qualquer tendência central com um ponto de ruptura diferente de zero não funcionará, porque será insensível a mudanças de probabilidade quando for pequeno. Por exemplo, o intervalo interquartil não funcionará, porque se , o intervalo interquartil das pontuações não depende de (portanto, o mesmo deve minimizar o IQR para todos os valores de inferiores a , o que é ruim).pp<0.25pp^p0.25

De cabeça para baixo, não consigo pensar em nenhuma tendência central com 0 ponto de ruptura que não possa ser reescrita como uma transformação monótona da média aritmética, mas é provavelmente porque não conheço cálculo variacional suficiente (certamente não o suficiente). para provar que estou certo). Se eu estiver correto, no entanto, seria "essencialmente" verdade que

para que a teoria das regras de pontuação adequadas funcione como pretendido, o funcional estatístico deve ser a média.


Outra observação: você sugere usar o RMSE como regra de pontuação, mas não deve fazê-lo porque coincide com o erro absoluto quando há um ponto de dados. Parece que isso pode refletir alguma confusão. Você sempre avalia uma regra de pontuação em cada previsão individual. Então, se você quiser resumir as pontuações, poderá seguir a tendência central das pontuações posteriormente. Portanto, prever a otimização do RMSE é sempre idêntico a otimizar o erro absoluto.

Por outro lado, você pode tomar como raiz a raiz quadrada da pontuação média de Brier, se quiser ter um resumo de pontuação que esteja em "unidades de probabilidade". Mas acho que seria mais produtivo simplesmente se familiarizar com os benchmarks da escala de pontuação Brier, pois é o que você normalmente vê:

  • 0 é um preditor perfeito;
  • 0,25 significa nenhuma capacidade preditiva ( );p^=0.5
  • 1 é um anti-preditor perfeito ( ou ).p^=1,p=0p^=0,p=1

Você também pode construir outros benchmarks usando modelos muito simples - por exemplo, se você ignorar todas as informações sobre os eventos e simplesmente prever a taxa básica , sua pontuação Brier é . Ou, se você está prevendo séries temporais, pode ver o desempenho de uma média ponderada dos últimos eventos, etc.pp(1p)


Obrigado pela sua resposta atenciosa. "então é uma regra de pontuação adequada para a média geométrica" ​​- Você quer dizer ? Então obtemos , que tem o mesmo minimizador que , conforme desejado. e F ( p ) E [ log S 2 ] = E [ log e S ] = E [ S ] P e E ( log S 2 )g(p^)=logf(p^)ef(p^)E[logS2]=E[logeS]=E[S]p^eE(logS2)
Kodiologist

"Você sempre avalia uma regra de pontuação em cada previsão individual. Então, se você quiser resumir as pontuações, pode assumir a tendência central das pontuações posteriormente". - Na prática, parece haver duas fases nas quais uma tendência central está envolvida: (1) ao agregar as pontuações de um único agente em vários eventos (2) ao considerar o desempenho de longo prazo de um agente. (2) usa a saída de (1). Poder-se-ia esperar, a priori, que se pudesse usar o RMSE para (1), mas a média para análises sobre (2).
Kodiologist

@ Kodiologist: Obrigado pela correção! Serve-me bem por não escrevê-lo primeiro.
Ben Kuhn

Re seu segundo comentário: Eu acho que a confusão pode estar entre usar o RMSE como tendência central e usar o RMSE como regra de pontuação. Como regra de pontuação, o RMSE é idêntico ao erro absoluto, porque as pontuações são avaliadas em uma previsão por previsão. Como tendência central, é bom - é novamente apenas a média em um espaço de coordenadas transformado monotonicamente (desde que a função de pontuação seja positiva). Mas usar o RMSE como sua tendência central (regra de não pontuar) não alivia o problema de que suas pontuações não têm as mesmas unidades que as probabilidades.
Ben Kuhn

@ Kodiologist: isso responde à sua pergunta? Deixe-me saber se você ainda está se perguntando alguma coisa!
Ben Kuhn

4

Você precisa voltar à motivação para obter uma regra de pontuação adequada, que você afirma livremente como "o agente com a menor pontuação faz as estimativas mais precisas". Para ser preciso, a origem das regras de pontuação é obter probabilidades que refletem crenças verdadeiras - como você afirma, uma pessoa não pode fazer nada melhor do que oferecer uma probabilidade correspondente à sua crença quando oferece uma regra de pontuação como recompensa. As regras de pontuação foram usadas para definir o que significa uma probabilidade sem se referir ao limite de um grande número de repetições.

Essa regra de pontuação é derivada assumindo expectativas sobre a regra, daí a aparência da média sobre o conjunto de previsões. Então, quando você pergunta "o funcional estatístico deve ser a média?" você está realmente perguntando como podemos assumir a expectativa de um conjunto de pontuações por algum outro método que não seja o uso convencional da média?

Li a sua preocupação de que "as regras de pontuação adequadas não estão na mesma escala que as probabilidades" que talvez você esteja procurando expressar quão boa ou ruim é a pontuação calculada? Além da pontuação de Brier, o log da diferença absoluta entre a probabilidade oferecida e um resultado de 0,1 também é uma regra de pontuação adequada, mas que pode não fornecer resultados mais interpretáveis, principalmente porque pode divergir para valores extremos para grandes erros.

Enterrado na derivação das regras de pontuação está o fato de o tomador de decisão ter utilidade linear, portanto, a expectativa é assumida diretamente sobre a regra de pontuação, não sobre a utilidade do resultado da regra de pontuação. (Uma pessoa pode ser um risco adverso a grandes desvios da verdade e isso influenciaria suas probabilidades suscitadas.) Talvez você esteja pensando implicitamente em uma função de utilidade que expressa quão boas ou más são as "probabilidades do que as pessoas escolherão" em vez de apenas as probabilidades próprias?


3
Re usando regras de pontuação para definir probabilidade: interessante, eu não tinha ideia. Sim, é uma preocupação para mim avaliar a qualidade das pontuações computadas. Pontuação re logarítmica, fornecendo pontuações extremas para grandes erros: devidamente anotado. Quanto à utilidade não linear: você pode estar certo, mas decidir sobre as funções da utilidade parece um negócio muito complicado, especialmente em pesquisa básica.
Kodiologist
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.