Como você sabe, a pontuação Brier mede a calibração e é o erro quadrado médio, , entre as previsões, e as respostas, . Como a pontuação de Brier é uma média, a comparação de duas pontuações de Brier é basicamente uma comparação de médias e você pode usar a fantasia como quiser. Vou sugerir duas coisas e apontar para uma terceira:B¯=n- 1∑ (y^Eu-yEu)2y^,y
Uma opção: faça um teste t
Minha resposta imediata quando ouço comparações de meios é fazer um teste t. Os erros ao quadrado provavelmente não são normalmente distribuídos em geral, portanto, é possível que este não seja o teste mais poderoso. Parece bom no seu exemplo extremo. Abaixo, testo a hipótese alternativa que p1
tem maior MSE do que p2
:
y <- rbinom(100,1,1:100/100)
p1 <- 1:100/10001
p2 <- 1:100/101
squares_1 <- (p1 - y)^2
squares_2 <- (p2 - y)^2
t.test(squares_1, squares_2, paired=T, alternative="greater")
#>
#> Paired t-test
#>
#> data: squares_1 and squares_2
#> t = 4.8826, df = 99, p-value = 2.01e-06
#> alternative hypothesis: true difference in means is greater than 0
#> 95 percent confidence interval:
#> 0.1769769 Inf
#> sample estimates:
#> mean of the differences
#> 0.2681719
Temos um valor p super-baixo. Fiz um teste t emparelhado, pois, observação por observação, os dois conjuntos de previsões se comparam com o mesmo resultado.
Outra opção: teste de permutação
Se a distribuição dos erros ao quadrado o preocupa, talvez você não queira fazer suposições de um teste t. Você poderia, por exemplo, testar a mesma hipótese com um teste de permutação:
library(plyr)
observed <- mean(squares_1) - mean(squares_2)
permutations <- raply(500000, {
swap <- sample(c(T, F), 100, replace=T)
one <- squares_1
one[swap] <- squares_2[swap]
two <- squares_2
two[swap] <- squares_1[swap]
mean(one) - mean(two)
})
hist(permutations, prob=T, nclass=60, xlim=c(-.4, .4))
abline(v=observed, col="red")
# p-value. I add 1 so that the p-value doesn't come out 0
(sum(permutations > observed) + 1)/(length(permutations) + 1)
#> [1] 1.999996e-06
Os dois testes parecem concordar estreitamente.
Algumas outras respostas
Uma pesquisa rápida deste site na comparação de MPEs aponta para o teste de Diebold-Mariano (veja a resposta aqui e um comentário aqui ). Parece que é simplesmente o teste de Wald e acho que ele terá um desempenho semelhante ao teste t acima.