Este é um ótimo exemplo para ilustrar a diferença entre abordagens freqüentistas e bayesianas de inferência.
Minha primeira resposta freqüente e simplista:
se você já assumiu que a distribuição dos ataques é binomial, não precisa saber nada sobre os outros 1000 jogadores (exceto talvez você possa usá-los para verificar sua suposição binomial).
Depois de ter a suposição binomial clara, sua estimativa é muito direta: 3/10. A variação desta estimativa é o usual p (1-p) / n = 0,021.
Basicamente, os outros 1000 jogadores são irrelevantes, a menos que você ache que há algo interessante e não binomial na distribuição dos ataques (por exemplo, as pessoas ficam melhores à medida que jogam mais jogos).
Uma maneira bayesiana mais considerada: como
alternativa, se você está interessado em aplicar o conhecimento prévio que possui de outros jogadores e acha que o novo jogador é basicamente uma nova amostra dessa mesma população, pense em bayesiano termos .
Estimar uma distribuição prévia de jogadores. Para fazer isso, você precisa examinar seus 1000 pontos de dados - os 1000 jogadores que já foram observados, para cada um dos quais você tem uma estimativa da probabilidade de um ataque. Cada um desses 1000 pontos pode receber apenas um dos 21 valores (de zero a vinte advertências em vinte) e você verá uma distribuição em todo o campo. Se você converter essas pontuações em proporções (ou seja, entre zero e um), essa distribuição provavelmente poderá ser aproximada razoavelmente bem por uma distribuição de probabilidade de uma variável aleatória com uma distribuição Beta. Uma distribuição beta é totalmente caracterizada por apenas dois parâmetros - digamos aeb -, mas como esses parâmetros não têm a ver com a distribuição que você nos perguntou (a probabilidade de um jogador em particular), mas com uma distribuição de nível superior. chame-os de hiperparâmetros. Você pode desenvolver estimativas desses hiperparâmetros a partir dos seus 1000 pontos de dados de uma de várias maneiras que não são realmente relevantes para o ponto principal da sua pergunta.
Antes de você ter qualquer informação sobre o seu jogador, o seu melhor palpite sobre a proporção de marcar um ataque (vamos chamá-lo de p) seria apenas o valor mais provável de p daquela distribuição Beta que acabamos de ajustar.
No entanto, temos dados sobre o nosso próprio jogador, não apenas a população em geral! Em Deus em que confiamos, todos os outros devem trazer dados (eu atribuiria essa citação se pudesse lembrar onde a encontrei, desculpe). Cada vez que observamos nosso jogador jogando e recebemos um strike ou não, temos uma nova informação para precisar nossa estimativa de sua proporção.
Uma das coisas interessantes sobre a distribuição beta como distribuição de probabilidade para uma proporção é que, à medida que coletamos novas informações de dados e criamos uma nova estimativa aprimorada da proporção, a teoria da probabilidade pode mostrar que a nova estimativa aprimorada também é uma versão beta distribuição - apenas uma versão mais concentrada. Isso ocorre porque a distribuição beta é o que é chamado de conjugado antes ao tentar fazer estimativas sobre um modelo binomial.
Ou seja, se observarmos z de n eventos bem-sucedidos (jogos com avisos neste caso); e a distribuição anterior era beta (a, b); a distribuição posterior (é uma estimativa da distribuição de probabilidade de p, considerando os 1000 pontos de dados originais e é uma nova observação de dez jogos) é beta (a + z, b + nz) ou (no nosso caso) beta (a + 3, b + 7). Como você pode ver, quanto mais dados você obtém, menos importante a e b são. A matemática disso é razoavelmente direta e em muitos textos, mas não tão interessante (para mim, pelo menos).
Se você tem R, pode ver um exemplo executando o código abaixo (e se não tiver R, deve obtê-lo - é gratuito e é incrível para ajudar a pensar nesse tipo de problema). Isso pressupõe que a distribuição anterior dos jogadores possa ser modelada por beta (2,5) - isso foi inventado por mim. Na realidade, existem maneiras de estimar números para aeb melhores do que apenas compor 2 e 5 porque acho que a curva parece correta.
Como você verá se executar este exemplo estilizado, a estimativa pontual da probabilidade do jogador de marcar um ataque, dada uma distribuição anterior de beta (2,5), é de 0,29 em vez de 0,30. Além disso, podemos criar um intervalo de credibilidade, francamente mais intuitivo e fácil de explicar do que um intervalo de confiança (consulte muitas perguntas e discussões na Internet sobre a diferença entre os dois, inclusive no CrossValidated).
plot(0:100/100,dbeta(0:100/100,2,5), type="l", ylim=c(0,4), bty="l")
lines(0:100/100,dbeta(0:100/100,2+3,5+7), type="l", lty=2)
legend(0.6,3.5,c("Posterior distribution", "Prior distribution"),
lty=2:1, bty="n")
qbeta(c(0.025, 0.975), 2, 5) # credibility interval prior to any new data
qbeta(c(0.025, 0.975), 2+3, 5+7) # credibility interval posterior to data
qbeta(0.5, 2+3, 5+7) # point estimate of p, posterior to data
Então observe seu novo jogador; e calcule uma nova distribuição posterior para o novo jogador. Efetivamente, isso diz "dado o que acabamos de observar, onde na distribuição dos jogadores achamos que essa pessoa provavelmente está?"