Abaixo estão alguns modelos muito simples . Ambos são deficientes em pelo menos uma maneira, mas talvez eles forneçam algo para se basear. O segundo modelo, na verdade, não aborda (bastante) o cenário do OP (veja as observações abaixo), mas estou deixando o caso de ajudar de alguma forma.
Modelo 1 : Uma variante do modelo Bradley-Terry
Suponha que estejamos interessados principalmente em prever se um time vencerá outro com base nos jogadores de cada time. Podemos simplesmente registrar se o Time 1 com jogadores vence o Time 2 com jogadores ( k , ℓ(i,j) em cada jogo, ignorando a pontuação final. Certamente, isso está descartando algumas informações, mas em muitos casos isso ainda fornece muita informação.(k,ℓ)
O modelo é então
logit(P(Team 1 beats Team 2))=αi+αj−αk−αℓ.
Ou seja, temos um parâmetro de "afinidade" para cada jogador que afeta o quanto esse jogador aumenta a chance de sua equipe vencer. Defina a "força" do jogador por . Então, este modelo afirma que
P (o time 1 vence o time 2 ) = s i s jsi=eαi
P(Team 1 beats Team 2)=sisjsisj+sksℓ.
Há uma simetria muito boa aqui, pois não importa como a resposta é codificada, desde que seja consistente com os preditores. Isto é, temos também
logit(P(Team 2 beats Team 1))=αk+αℓ−αi−αj.
Isso pode se encaixar facilmente como uma regressão logística com preditores que são indicadores (um para cada jogador) tendo valor se o jogador i estiver no time 1 do jogo em questão, - 1 se estiver no time 2 e 0 se não tiver participar desse jogo.+1i−10
αsα1=0
Modelo 2 : pontuação independente
NB : Ao reler a pergunta do OP, é evidente que os modelos abaixo são inadequados para sua configuração. Especificamente, o OP está interessado em um jogo que termina após um número fixo de pontos ser marcado por um time ou outro. Os modelos abaixo são mais apropriados para jogos com duração fixa no tempo. Podem ser feitas modificações para se ajustarem melhor à estrutura do OP, mas isso exigiria uma resposta separada para se desenvolver.
Agora queremos acompanhar as pontuações. Suponha que seja uma aproximação razoável que cada equipe marque pontos independentemente um do outro com o número de pontos marcados em qualquer intervalo, independentemente de qualquer intervalo separado. Em seguida, o número de pontos que cada equipe obtém pode ser modelado como uma variável aleatória de Poisson.
ij
log(μ)=γi+γj
Observe que este modelo ignora os confrontos reais entre as equipes, concentrando-se exclusivamente na pontuação.
σi=eγi(i,j)(k,ℓ)
P(Team 1 beats Team 2 in sudden death)=σiσjσiσj+σkσℓ.
ρiδi(i,j)(k,ℓ)
log(μ1)=ρi+ρj−δk−δℓ
log(μ2)=ρk+ρℓ−δi−δj
A pontuação ainda é independente nesse modelo, mas agora há uma interação entre os jogadores de cada equipe que afeta o placar. Os jogadores também podem ser classificados de acordo com suas estimativas de coeficiente de afinidade.
O modelo 2 (e suas variantes) também permite a previsão de uma pontuação final.
Extensões : Uma maneira útil de estender os dois modelos é incorporar uma ordem em que os indicadores positivos correspondam à equipe "doméstica" e os indicadores negativos à equipe "ausente". A adição de um termo de interceptação aos modelos pode ser interpretada como uma "vantagem do campo doméstico". Outras extensões podem incluir a incorporação da chance de empate no Modelo 1 (na verdade já é uma possibilidade no Modelo 2).
Nota lateral : Pelo menos uma das pesquisas computadorizadas (de Peter Wolfe ) usadas no Bowl Championship Series no futebol americano universitário usa o modelo (padrão) Bradley-Terry para produzir seus rankings.