Estimando a probabilidade de sucesso, dada uma população de referência

Suponha que você tenha a seguinte situação:

Você observou ao longo do tempo 1000 jogadores de boliche, cada um jogando um número relativamente pequeno de jogos (digamos 1 a 20). Você anotou a porcentagem de strike de cada um desses jogadores sobre o número de jogos que cada um desses jogadores jogou.

Um novo jogador de boliche entra e joga 10 jogos e recebe 3 tacadas.

A distribuição do número de ataques de qualquer jogador é assumida como binomial.

Quero estimar a probabilidade "verdadeira" de sucesso para esse jogador.

Observe o seguinte:

Esta não é uma situação real ou um problema escolar, apenas um problema de auto-pensamento.
Eu sou um estudante com pouco mais informações sobre estatísticas do que um curso de Estatísticas 101. Eu sei um pouco sobre inferência, como estimativa de máxima verossimilhança ... Portanto, fique à vontade para me dizer áreas nas estatísticas sobre as quais devo ler.
Meu problema pode não ter informações ou, se for benéfico, por exemplo, que a distribuição da probabilidade de sucesso seja aproximadamente normal, diga-me.

Muito obrigado

binomial inference

— Uwat
fonte

O que você acha que é a relação entre a probabilidade desse jogador e a probabilidade de cada um dos outros 1000 jogadores? Em outras palavras, por que consideraríamos os outros 1000 na estimativa do prob desse jogador?

— Rolando2

Suponho que a porcentagem real de golpes do jogador é essencialmente uma realização da mesma distribuição de porcentagens de golpes que os outros 1000 jogadores. Em outras palavras, não há nada de especial nesse novo jogador, ele é apenas outro jogador aleatório. Espero que isso faça sentido.

— Uwat

Este é um ótimo exemplo para ilustrar a diferença entre abordagens freqüentistas e bayesianas de inferência.

Minha primeira resposta freqüente e simplista: se você já assumiu que a distribuição dos ataques é binomial, não precisa saber nada sobre os outros 1000 jogadores (exceto talvez você possa usá-los para verificar sua suposição binomial).

Depois de ter a suposição binomial clara, sua estimativa é muito direta: 3/10. A variação desta estimativa é o usual p (1-p) / n = 0,021.

Basicamente, os outros 1000 jogadores são irrelevantes, a menos que você ache que há algo interessante e não binomial na distribuição dos ataques (por exemplo, as pessoas ficam melhores à medida que jogam mais jogos).

Uma maneira bayesiana mais considerada: como alternativa, se você está interessado em aplicar o conhecimento prévio que possui de outros jogadores e acha que o novo jogador é basicamente uma nova amostra dessa mesma população, pense em bayesiano termos .

Estimar uma distribuição prévia de jogadores. Para fazer isso, você precisa examinar seus 1000 pontos de dados - os 1000 jogadores que já foram observados, para cada um dos quais você tem uma estimativa da probabilidade de um ataque. Cada um desses 1000 pontos pode receber apenas um dos 21 valores (de zero a vinte advertências em vinte) e você verá uma distribuição em todo o campo. Se você converter essas pontuações em proporções (ou seja, entre zero e um), essa distribuição provavelmente poderá ser aproximada razoavelmente bem por uma distribuição de probabilidade de uma variável aleatória com uma distribuição Beta. Uma distribuição beta é totalmente caracterizada por apenas dois parâmetros - digamos aeb -, mas como esses parâmetros não têm a ver com a distribuição que você nos perguntou (a probabilidade de um jogador em particular), mas com uma distribuição de nível superior. chame-os de hiperparâmetros. Você pode desenvolver estimativas desses hiperparâmetros a partir dos seus 1000 pontos de dados de uma de várias maneiras que não são realmente relevantes para o ponto principal da sua pergunta.

Antes de você ter qualquer informação sobre o seu jogador, o seu melhor palpite sobre a proporção de marcar um ataque (vamos chamá-lo de p) seria apenas o valor mais provável de p daquela distribuição Beta que acabamos de ajustar.

No entanto, temos dados sobre o nosso próprio jogador, não apenas a população em geral! Em Deus em que confiamos, todos os outros devem trazer dados (eu atribuiria essa citação se pudesse lembrar onde a encontrei, desculpe). Cada vez que observamos nosso jogador jogando e recebemos um strike ou não, temos uma nova informação para precisar nossa estimativa de sua proporção.

Uma das coisas interessantes sobre a distribuição beta como distribuição de probabilidade para uma proporção é que, à medida que coletamos novas informações de dados e criamos uma nova estimativa aprimorada da proporção, a teoria da probabilidade pode mostrar que a nova estimativa aprimorada também é uma versão beta distribuição - apenas uma versão mais concentrada. Isso ocorre porque a distribuição beta é o que é chamado de conjugado antes ao tentar fazer estimativas sobre um modelo binomial.

Ou seja, se observarmos z de n eventos bem-sucedidos (jogos com avisos neste caso); e a distribuição anterior era beta (a, b); a distribuição posterior (é uma estimativa da distribuição de probabilidade de p, considerando os 1000 pontos de dados originais e é uma nova observação de dez jogos) é beta (a + z, b + nz) ou (no nosso caso) beta (a + 3, b + 7). Como você pode ver, quanto mais dados você obtém, menos importante a e b são. A matemática disso é razoavelmente direta e em muitos textos, mas não tão interessante (para mim, pelo menos).

Se você tem R, pode ver um exemplo executando o código abaixo (e se não tiver R, deve obtê-lo - é gratuito e é incrível para ajudar a pensar nesse tipo de problema). Isso pressupõe que a distribuição anterior dos jogadores possa ser modelada por beta (2,5) - isso foi inventado por mim. Na realidade, existem maneiras de estimar números para aeb melhores do que apenas compor 2 e 5 porque acho que a curva parece correta.

Como você verá se executar este exemplo estilizado, a estimativa pontual da probabilidade do jogador de marcar um ataque, dada uma distribuição anterior de beta (2,5), é de 0,29 em vez de 0,30. Além disso, podemos criar um intervalo de credibilidade, francamente mais intuitivo e fácil de explicar do que um intervalo de confiança (consulte muitas perguntas e discussões na Internet sobre a diferença entre os dois, inclusive no CrossValidated).

plot(0:100/100,dbeta(0:100/100,2,5), type="l", ylim=c(0,4), bty="l")
lines(0:100/100,dbeta(0:100/100,2+3,5+7), type="l", lty=2)
legend(0.6,3.5,c("Posterior distribution", "Prior distribution"), 
    lty=2:1, bty="n")
qbeta(c(0.025, 0.975), 2, 5) # credibility interval prior to any new data
qbeta(c(0.025, 0.975), 2+3, 5+7) # credibility interval posterior to data
qbeta(0.5, 2+3, 5+7) # point estimate of p, posterior to data

Então observe seu novo jogador; e calcule uma nova distribuição posterior para o novo jogador. Efetivamente, isso diz "dado o que acabamos de observar, onde na distribuição dos jogadores achamos que essa pessoa provavelmente está?"

— Peter Ellis
fonte

Eu não acho que isso esteja correto. Suponha que a grande maioria (99%) das pessoas entre as 1000 pessoas tenha percentual de greve entre 5% e 15% e um punhado tenha porcentagens de greve superiores a 25%. Então, eu argumentaria que é mais provável que o novo jogador que observamos tenha uma porcentagem de acerto real menor que 30%, mas simplesmente "tenha sorte".

— Uwat

ok, bom ponto - adicionei uma edição para levar essa situação em consideração. Basicamente, você tem uma boa declaração de um problema de inferência bayesiana.

— Peter Ellis

@ Peter - tudo bem argumentado.

— Rolando2

Obrigado pela sua resposta. No entanto, eu não entendi direito o que você quis dizer com: "você precisa de uma distribuição real das taxas de greve dos indivíduos, que provavelmente será de algum tipo Beta". Você pode esclarecer um pouco? Graças

— Uwat

Obrigado, muito boa pergunta, ampliei bastante minha resposta em resposta.

— Peter Ellis