No livro de Nate Silver, The Signal and the Noise, ele escreve o seguinte, o que pode fornecer algumas dicas para sua pergunta:
Um dos testes mais importantes de uma previsão - eu diria que é o mais importante - é chamado de calibração. De todas as vezes que você disse que havia 40% de chance de chuva, com que frequência a chuva realmente ocorreu? Se, a longo prazo, realmente chover cerca de 40% das vezes, isso significa que suas previsões foram bem calibradas. Se acabou chovendo apenas 20% das vezes, ou 60% das vezes, não estavam.
Então, isso levanta alguns pontos. Antes de mais nada, como você corretamente aponta, você realmente não pode fazer nenhuma inferência sobre a qualidade de uma única previsão pelo resultado do evento que está prevendo. O melhor que você pode fazer é ver o desempenho do seu modelo ao longo de muitas previsões.
Outra coisa importante a se pensar é que as previsões fornecidas por Nate Silver não são um evento em si, mas a distribuição de probabilidade do evento. Assim, no caso da corrida presidencial, ele está estimando a distribuição de probabilidade de Clinton, Trump ou Johnson vencendo a corrida. Portanto, neste caso, ele está estimando uma distribuição multinomial.
Mas ele está realmente prevendo a corrida em um nível muito mais granular. Suas previsões estimam as distribuições de probabilidade da porcentagem de votos que cada candidato receberá em cada estado. Portanto, se considerarmos três candidatos, isso pode ser caracterizado por um vetor aleatório de comprimento 51 * 3 e por valores no intervalo [0, 1], sujeito à restrição de que as proporções somam 1 para as proporções dentro de um estado. O número 51 é porque outros são 50 estados + DC (e, na verdade, acho que são mais alguns, porque alguns estados podem dividir seus votos nas faculdades eleitorais), e o número 3 é devido ao número de candidatos.
Agora você não tem muitos dados para avaliar suas previsões - ele só forneceu previsões para as últimas três eleições que eu conheço (houve mais?). Portanto, não acho que exista uma maneira de avaliar razoavelmente o modelo dele, a menos que você realmente tenha o modelo em mãos e possa avaliá-lo usando dados simulados. Mas ainda existem algumas coisas interessantes que você pode ver. Por exemplo, acho que seria interessante observar com que precisão ele previu as proporções de votação estado a estado em um determinado momento, por exemplo, uma semana após a eleição. Se você repetir isso por vários períodos, por exemplo, uma semana, um mês, seis meses e um ano, poderá fornecer uma exposição bastante interessante para as previsões dele. Uma ressalva importante: os resultados são altamente correlacionados entre os estados dentro de uma eleição, então você não pode realmente dizer que possui 51 estados * 3 instâncias de previsão independentes das eleições (ou seja, se o modelo subestimar o desempenho dos candidatos em um estado, também tenderá a subestimar em outros estados) . Mas talvez eu pense assim dessa maneira, apenas para que você tenha dados suficientes para fazer algo significativo.