A versão curta é que a distribuição Beta pode ser entendida como representando uma distribuição de probabilidades - isto é, representa todos os valores possíveis de uma probabilidade quando não sabemos qual é essa probabilidade. Aqui está minha explicação intuitiva favorita disso:
Quem segue o beisebol está familiarizado com as médias de rebatidas - simplesmente o número de vezes que um jogador recebe um golpe base dividido pelo número de vezes que sobe no bastão (portanto, é apenas uma porcentagem entre 0
e 1
). .266
é geralmente considerado uma média média de rebatidas, enquanto .300
é considerada excelente.
Imagine que temos um jogador de beisebol e queremos prever qual será sua média de rebatidas ao longo da temporada. Você pode dizer que podemos usar a média de rebatidas dele até agora - mas essa será uma medida muito ruim no início de uma temporada! Se um jogador vai para o taco uma vez e recebe um single, sua média de rebatidas é brevemente 1.000
, enquanto se ele atacar, sua média é de rebatidas 0.000
. Não fica muito melhor se você começar a bater cinco ou seis vezes - você pode obter uma sequência de sorte e obter uma média de 1.000
, ou uma sequência de azar e obter uma média de 0
, nenhuma das quais é um bom preditor de como você vai bater nessa temporada.
Por que sua média de rebatidas nos primeiros hits não é um bom indicador de sua eventual média de rebatidas? Quando o primeiro atacante de um jogador é um strikeout, por que ninguém prevê que ele nunca será atingido durante toda a temporada? Porque estamos entrando com expectativas anteriores. Sabemos que, na história, a maioria das médias de rebatidas ao longo de uma temporada oscilou entre algo como .215
e .360
, com algumas exceções extremamente raras dos dois lados. Sabemos que, se um jogador recebe alguns strikeouts seguidos no início, isso pode indicar que ele vai acabar um pouco pior que a média, mas sabemos que ele provavelmente não se desviará desse intervalo.
Dado o nosso problema da média de rebatidas, que pode ser representado com uma distribuição binomial (uma série de sucessos e falhas), a melhor maneira de representar essas expectativas anteriores (o que chamamos de prioritário nas estatísticas ) é com a distribuição Beta. antes de vermos o jogador dar seu primeiro golpe, o que esperamos ser sua média de rebatidas. O domínio da distribuição Beta é (0, 1)
, exatamente como uma probabilidade, então já sabemos que estamos no caminho certo - mas a adequação do Beta para esta tarefa vai muito além disso.
Esperamos que a média de rebatidas da temporada seja mais provável .27
, mas que possa variar razoavelmente de .21
até .35
. Isso pode ser representado com uma distribuição Beta com os parâmetros e β = 219 :α=81β=219
curve(dbeta(x, 81, 219))
Eu vim com esses parâmetros por dois motivos:
- A média é αα+β=8181+219=.270
- Como você pode ver na trama, essa distribuição está quase inteiramente dentro
(.2, .35)
- a faixa razoável para uma média de rebatidas.
Você perguntou o que o eixo x representa em um gráfico de densidade de distribuição beta - aqui ele representa sua média de rebatidas. Portanto, observe que, nesse caso, não apenas o eixo y é uma probabilidade (ou mais precisamente uma densidade de probabilidade), mas também o eixo x (a média de rebatidas é apenas a probabilidade de um acerto, afinal)! A distribuição Beta está representando uma distribuição de probabilidades .
Mas aqui está o porquê da distribuição Beta ser tão apropriada. Imagine que o jogador recebe um único golpe. Seu recorde para a temporada é agora 1 hit; 1 at bat
. Temos que atualizar nossas probabilidades - queremos mudar toda essa curva um pouco para refletir nossas novas informações. Embora a matemática para provar isso esteja um pouco envolvida ( é mostrada aqui ), o resultado é muito simples . A nova distribuição Beta será:
Beta(α0+hits,β0+misses)
α0β0αβBeta(81+1,219)
curve(dbeta(x, 82, 219))
Observe que ele quase não mudou - a mudança é realmente invisível a olho nu! (Isso ocorre porque um hit não significa realmente nada).
Beta(81+100,219+200)
curve(dbeta(x, 81+100, 219+200))
Observe que agora a curva está mais fina e deslocada para a direita (maior média de rebatidas) do que costumava ser - temos uma noção melhor de qual é a média de rebatidas do jogador.
αα+β81+10081+100+219+200=.303100100 + 200= 0,3338181 + 219= 0,270
Assim, a distribuição Beta é melhor para representar uma distribuição probabilística de probabilidades - o caso em que não sabemos antecipadamente qual é a probabilidade, mas temos algumas suposições razoáveis.