Modelagem de jogadores de críquete e batedores

9

Eu tenho um conjunto de dados detalhando um grande número de jogos de críquete (alguns milhares). No críquete, os "jogadores de boliche" jogam repetidamente uma bola em uma sucessão de "batedores". O jogador está tentando tirar o batedor "de fora". A este respeito, é bastante semelhante aos jarros e rebatedores no beisebol.

Se eu pegasse o conjunto de dados inteiro e dividisse o número total de bolas que lançaram um batedor pelo número total de bolas lançadas, posso ver que eu teria a probabilidade média de um lançador lançar um batedor - será em torno de 0,03 ( espero que eu não tenha dado errado já?)

O que me interessa é o que posso fazer para tentar calcular a probabilidade de um batedor específico ser derrubado por um jogador específico na próxima bola.

O conjunto de dados é grande o suficiente para que qualquer jogador jogue milhares de bolas para uma grande variedade de batedores. Portanto, acredito que eu poderia simplesmente dividir o número de outs que um jogador consegue pelo número de bolas que ele jogou para calcular uma nova probabilidade de que aquele jogador específico saia da próxima bola.

Meu problema é que o conjunto de dados não é grande o suficiente para garantir que um determinado jogador jogue um número estatisticamente significativo de bolas em qualquer batedor. Então, se estou interessado em calcular a probabilidade de uma saída para um jogador específico enfrentando um batedor específico, não acho que isso não possa ser feito da mesma maneira simplista.

Minha pergunta é se a seguinte abordagem é válida:

Em todo o conjunto de dados, a probabilidade de uma bola sair é de 0,03.
Se eu calcular que, em média, o jogador A tem uma probabilidade de sair de 0,06 (ou seja, duas vezes mais que um jogador médio),
e, em média, o batedor B tinha uma probabilidade de estar fora de 0,01 (um terço da probabilidade de um batedor médio),
é então válido dizer que a probabilidade desse batedor específico estar na próxima bola para aquele jogador específico será 0,06 * (0,01 / 0,03) = 0,02?

probability modeling games

— Ravi
fonte

Se o jogador decidisse jogar a bola repetidamente , rapidamente se veriam impedidos de jogar a bola novamente no jogo.

— Glen_b -Replica Monica

2

$\DeclareMathOperator{\E}{\mathbb{E}}$

Se eu pegasse todo o conjunto de dados e dividisse o número total de bolas que lançaram um batedor pelo número total de bolas lançadas, posso ver que eu teria a probabilidade média de um lançador lançar um batedor - será em torno de 0,03 (esperançosamente Eu ainda não errei?)

Infelizmente, talvez isso já não seja exatamente o que você está procurando.

Suponha que tenhamos um único jogador e dois batedores: Don Bradman e eu. (Sei muito pouco sobre críquete, por isso, se estou fazendo algo fora daqui, avise-me.) Os jogos são parecidos com:

Don vai para o taco e sai na 99ª tigela.
Vou para o bastão e saio imediatamente.
Don vai para o taco e sai na 99ª tigela.
Vou para o bastão e saio imediatamente.

Nesse caso, existem quatro saídas em 200 taças, portanto a probabilidade marginal de um jogador conseguir um batedor é estimado em 4/200 = 2%. Mas, na verdade, a probabilidade de Don ficar de fora é mais de 1%, enquanto a minha é de 100%. Portanto, se você escolher um batedor e um jogador aleatoriamente, a probabilidade de que esse jogador jogue esse batedor desta vez é mais (50% de chance de você escolher Don) * (1% de chance de ele sair) + (50% de chance que você escolheu eu) * (100% de chance de sair) = 50,05%. Mas se você escolher um campo aleatoriamente, haverá 2% de chance de sair. Então, você precisa pensar cuidadosamente sobre qual desses modelos de amostragem está pensando.

De qualquer forma, sua proposta não é louca. Mais simbolicamente, deixe ser o jogador e o batedor; deixe ser a probabilidade de que fica para fora. Então você está dizendo: $b$ $m$ $f(b, m)$ $b$ $m$

f (b, m) = \frac{E_{m^{'}} [f (b, m^{'})] E_{b^{'}} [f (b^{'}, m)]}{E_{b^{'}, m^{'}} [f (b^{'}, m^{'})]} .

$f(b, m) = \frac{\E_{m'}[ f(b, m') ] \E_{b'}[ f(b', m) ]}{\E_{b', m'}[ f(b', m') ]} .$

Isso tem a propriedade desejada que: é igualmente consistente se você usar apenas mais deou.

E_{b, m} [f (b, m)] = \frac{E_{b, m^{'}} [f (b, m^{'})] E_{b^{'}, m} [f (b^{'}, m)]}{E_{b^{'}, m^{'}} [f (b^{'}, m^{'})]} = E_{b, m} [f (b, m)];

$\E_{b,m}[f(b, m)] = \frac{\E_{b,m'}[ f(b, m') ] \E_{b',m}[ f(b', m) ]}{\E_{b',m'}[ f(b', m') ]} = \E_{b,m}[ f(b, m) ] ;$

b

$b$

m

$m$

Observe que, neste caso, podemos atribuir Seu pressuposto é que você pode observarerazoavelmente bem a partir dos dados. Contanto que (a) você tenha jogos suficientes [o que você faz] e (b) todos os jogadores se jogam com frequências razoavelmente semelhantes, então tudo bem.

\begin{matrix} C := E_{b, m} [f (b, m)] \\ g (b) := E_{m} [f (b, m)] / \sqrt{C} \\ h (m) := E_{b} [f (b, m)] / \sqrt{C} \\ so that f (b, m) = g (b) h (m) . \end{matrix}

$\begin{gather} C := \E_{b, m}[f(b, m)] \\ g(b) := \E_{m}[f(b, m)] / \sqrt{C} \\ h(m) := \E_{b}[f(b, m)] / \sqrt{C} \\ \text{so that } f(b, m) = g(b) \, h(m) .\end{gather}$

g (b)

$g(b)$

h (m)

$h(m)$

Para elaborar um pouco sobre (b): imagine que você tem dados de vários jogos profissionais e vários jogos meus jogando com meus amigos. Se não houver sobreposição, talvez eu pareça muito bem em comparação com meus amigos, então talvez você pense que sou muito melhor que o pior jogador profissional. Isso é obviamente falso, mas você não tem dados para refutá-lo. Se você tiver uma pequena sobreposição, onde joguei contra um jogador profissional uma vez e fui destruído, os dados suportam a classificação de mim e de meus amigos como piores do que os profissionais, mas seu método não explica isso. Tecnicamente, o problema aqui é que você está assumindo que possui uma boa amostra para, por exemplo, $\E_{b'}[f(b', m)]$ , mas sua distribuição é tendenciosa. $b'$

É claro que seus dados não ficarão tão ruins assim, mas dependendo da estrutura da liga ou o que for, podem ter alguns elementos desse problema.

Você pode tentar contornar isso com uma abordagem diferente. O modelo proposto para é na verdade uma instância de modelos de fatoração de matriz de baixo escalão, comuns na filtragem colaborativa , como no problema da Netflix . Há, de escolher a função e ser de dimensão , e representam . Você pode interpretar $f$ $g(b)$ $h(m)$ $r$ $f(b, m) = g(b)^T h(m)$ $r>1$ como complexificar seu modelo de uma única pontuação de "qualidade" para ter pontuações em várias dimensões: talvez certos jogadores se saiam melhor contra certos tipos de batedores. (Isso foi feito, por exemplo, para jogos da NBA .)

A razão pela qual eles são chamados fatoração matricial é porque, se você criar uma matriz com tantas linhas quanto jogadores e tantas colunas quanto batedores, poderá escrever isso como $F$

onde vocêum

\underset{F}{\underset{⏟}{[\begin{matrix} f (b_{1 1}, m_{1 1}) & f (b_{1 1}, m_{2}) & \dots & f (b_{1 1}, m_{M}) \\ f (b_{2}, m_{1 1}) & f (b_{2}, m_{2}) & \dots & f (b_{2}, m_{M}) \\ ⋮ & ⋮ & ⋱ & ⋮ \\ f (b_{N}, m_{1 1}) & f (b_{N}, m_{2}) & \dots & f (b_{N}, m_{M}) \end{matrix}]}} = \underset{G}{\underset{⏟}{[\begin{matrix} g (b_{1 1}) \\ ⋮ \\ g (b_{N}) \end{matrix}]}} \underset{H^{T}}{\underset{⏟}{{[\begin{matrix} h (m_{1 1}) \\ ⋮ \\ h (m_{M}) \end{matrix}]}^{T}}}

$\underbrace{\begin{bmatrix} f(b_1, m_1) & f(b_1, m_2) & \dots & f(b_1, m_M) \\ f(b_2, m_1) & f(b_2, m_2) & \dots & f(b_2, m_M) \\ \vdots & \vdots & \ddots& \vdots \\ f(b_N, m_1) & f(b_N, m_2) & \dots & f(b_N, m_M) \end{bmatrix}}_{F} = \underbrace{\begin{bmatrix} g(b_1) \\ \vdots \\ g(b_N) \end{bmatrix}}_{G} \underbrace{\begin{bmatrix} h(m_1) \\ \vdots \\ h(m_M) \end{bmatrix}^T}_{H^T}$

N \times M

$N \times M$ matriz

em um

um

e um

um

.

F

$F$

N \times r

$N \times r$

G

$G$

M \times r

$M \times r$

H

$H$

Obviamente, você não consegue observar diretamente. O modelo usual é que você observe entradas ruidosas de aleatoriamente; no seu caso, você começa a observar um empate a partir de uma distribuição binomial com um número aleatório de ensaios para cada entrada de . $F$ $F$ $F$

Você pode construir um modelo de probabilidade como, digamos:

\begin{matrix} G_{Eu k} \sim N (0 0, σ_{G}^{2}) \\ H_{j k} \sim N (0 0, σ_{H}^{2}) \\ F_{Eu j} = G_{Eu}^{T} H_{j} \\ R_{Eu j} \sim B Eu n o m Eu uma eu (n_{Eu j}, F_{Eu j}) \end{matrix}

$\begin{gather} G_{ik} \sim \mathcal{N}(0, \sigma_G^2) \\ H_{jk} \sim \mathcal{N}(0, \sigma_H^2) \\ F_{ij} = G_i^T H_j \\ R_{ij} \sim \mathcal{Binomial}(n_{ij}, F_{ij}) \end{gather}$

n_{i j}

$n_{ij}$

R_{i j}

$R_{ij}$

σ_{G}

$\sigma_G$

σ_{H}

$\sigma_H$

$n$ $F_{ij}$ $[0, 1]$ $G$ $H$

— Dougal
fonte

11

@ Ravi Isso foi longo, provavelmente não explicado claramente, e eu não conheço seu nível de experiência com esse tipo de problema. Mas fique à vontade para fazer perguntas sobre quaisquer partes que não sejam claras. Além disso, como seus dados são individuais, você também pode considerar o uso do say Elo .

— Dougal

Obrigado por escrever esta resposta de alta qualidade. É certo que agora só sei estatísticas básicas, então muito disso é novo para mim. No entanto, ele me mostra muito claramente o que ler para entender esse problema corretamente, que é exatamente o que eu queria. Espero que, depois de alguns dias (ou anos!) De estudo, eu seja capaz de entender melhor sua resposta.

— Ravi

Obrigado. Eu tinha uma pergunta sobre Elo. Como é bastante longo abri uma nova pergunta [aqui] :( stats.stackexchange.com/questions/230518/... )

— Ravi

0

Você não pode inferir a probabilidade correta de B sair, já que A é o jogador que A e B nunca se encontraram no campo apenas com base em suas médias com outros jogadores.

— oW_
fonte

3

Embora você possa estar certo sobre o críquete, a capacidade dos sistemas de classificação em outros jogos de habilidade, como o xadrez, de prever os resultados das partidas entre pessoas que nunca competiram sugere o contrário.

— whuber

2

@whuber Concordou - acho que será exatamente tão verdadeiro no críquete quanto quase qualquer outra interação competitiva. Cricket não é tão diferente.

— Glen_b -Reinstala Monica 18/08/16