Existem algumas regras de pontuação estritas e adequadas para os dados de contagem que você pode usar. Regras de pontuação são penalidades introduzidas com sendo a distribuição preditiva e o valor observado. Eles têm várias propriedades desejáveis, em primeiro lugar que uma previsão mais próxima da verdadeira probabilidade sempre recebe menos penalidade e existe uma melhor (única) melhor previsão e é quando a probabilidade prevista coincide com a verdadeira probabilidade. Assim, minimizar a expectativa de significa relatar as verdadeiras probabilidades. Veja também Wikipedia .P y s ( y , P )s(y,P)Pys(y,P)
Freqüentemente, toma-se uma média daqueles sobre todos os valores previstos,
S=1n∑ni=1s(y(i),P(i))
Qual regra a ser adotada depende do seu objetivo, mas darei uma caracterização aproximada quando cada uma for boa para ser usada.
No que segue, uso para a função de massa de probabilidade preditiva e a função de distribuição cumulativa preditiva. Um passa por todo o suporte da distribuição de contagem (ou seja, ). indica uma função indicadora. e são a média e o desvio padrão da distribuição preditiva (que geralmente são quantidades estimadas diretamente nos modelos de dados de contagem). f(y)Pr(Y=y)F(y)∑k0,1,…,∞Iμσ
Regras de pontuação estritamente adequadas
- Brier Score : (estável para desequilíbrio de tamanho em preditores categóricos)s(y,P)=−2f(y)+∑kf2(k)
- Escore de Dawid-Sebastiani : (bom para a escolha geral do modelo preditivo; estável para o desequilíbrio de tamanho nos preditores categóricos)s(y,P)=(y−μσ)2+2logσ
- Escore de desvio : ( é um termo de normalização que depende apenas de , nos modelos de Poisson é geralmente considerado o desvio saturado; bom para uso com estimativas de uma estrutura de ML)s(y,P)=−2logf(y)+gygyy
- Escore logarítmico : (calculado com muita facilidade; estável para desequilíbrio de tamanho em preditores categóricos)s(y,P)=−logf(y)
- Escore de probabilidade classificada : (bom para contrastar previsões diferentes de contagens muito altas; suscetível ao desequilíbrio de tamanho em preditores categóricos)s(y,P)=∑k{F(k)−I(y≤k)}2
- Escore esférico : (estável para desequilíbrio de tamanho em preditores categóricos)s(y,P)=f(y)∑kf2(k)√
Outras regras de pontuação (não tão apropriadas, mas frequentemente usadas)
- Escore de erro absoluto :(não apropriado)s(y,P)=|y−μ|
- Escore de erro ao quadrado : (não estritamente adequado; suscetível a discrepantes; suscetível ao desequilíbrio de tamanho nos preditores categóricos)s(y,P)=(y−μ)2
- Escore de erro ao quadrado normalizado de Pearson : (não estritamente adequado; suscetível a outliers; pode ser usado para verificar se o modelo verifica se o escore médio é muito diferente de 1; estável para desequilíbrio de tamanho em preditores categóricos)s(y,P)=(y−μσ)2
Exemplo de código R para regras estritamente apropriadas:
library(vcdExtra)
m1 <- glm(Freq ~ mental, family=poisson, data=Mental)
# scores for the first observation
mu <- predict(m1, type="response")[1]
x <- Mental$Freq[1]
# logarithmic (equivalent to deviance score up to a constant)
-log(dpois(x, lambda=mu))
# quadratic (brier)
-2*dpois(x,lambda=mu) + sapply(mu, function(x){ sum(dpois(1:1000,lambda=x)^2) })
# spherical
- dpois(x,mu) / sqrt(sapply(mu, function(x){ sum(dpois(1:1000,lambda=x)^2) }))
# ranked probability score
sum(ppois((-1):(x-1), mu)^2) + sum((ppois(x:10000,mu)-1)^2)
# Dawid Sebastiani
(x-mu)^2/mu + log(mu)