A versão curta é que a distribuição Beta pode ser entendida como representando uma distribuição de probabilidades - isto é, representa todos os valores possíveis de uma probabilidade quando não sabemos qual é essa probabilidade. Aqui está minha explicação intuitiva favorita disso:
Quem segue o beisebol está familiarizado com as médias de rebatidas - simplesmente o número de vezes que um jogador recebe um golpe base dividido pelo número de vezes que sobe no bastão (portanto, é apenas uma porcentagem entre 0e 1). .266é geralmente considerado uma média média de rebatidas, enquanto .300é considerada excelente.
Imagine que temos um jogador de beisebol e queremos prever qual será sua média de rebatidas ao longo da temporada. Você pode dizer que podemos usar a média de rebatidas dele até agora - mas essa será uma medida muito ruim no início de uma temporada! Se um jogador vai para o taco uma vez e recebe um single, sua média de rebatidas é brevemente 1.000, enquanto se ele atacar, sua média é de rebatidas 0.000. Não fica muito melhor se você começar a bater cinco ou seis vezes - você pode obter uma sequência de sorte e obter uma média de 1.000, ou uma sequência de azar e obter uma média de 0, nenhuma das quais é um bom preditor de como você vai bater nessa temporada.
Por que sua média de rebatidas nos primeiros hits não é um bom indicador de sua eventual média de rebatidas? Quando o primeiro atacante de um jogador é um strikeout, por que ninguém prevê que ele nunca será atingido durante toda a temporada? Porque estamos entrando com expectativas anteriores. Sabemos que, na história, a maioria das médias de rebatidas ao longo de uma temporada oscilou entre algo como .215e .360, com algumas exceções extremamente raras dos dois lados. Sabemos que, se um jogador recebe alguns strikeouts seguidos no início, isso pode indicar que ele vai acabar um pouco pior que a média, mas sabemos que ele provavelmente não se desviará desse intervalo.
Dado o nosso problema da média de rebatidas, que pode ser representado com uma distribuição binomial (uma série de sucessos e falhas), a melhor maneira de representar essas expectativas anteriores (o que chamamos de prioritário nas estatísticas ) é com a distribuição Beta. antes de vermos o jogador dar seu primeiro golpe, o que esperamos ser sua média de rebatidas. O domínio da distribuição Beta é (0, 1), exatamente como uma probabilidade, então já sabemos que estamos no caminho certo - mas a adequação do Beta para esta tarefa vai muito além disso.
Esperamos que a média de rebatidas da temporada seja mais provável .27, mas que possa variar razoavelmente de .21até .35. Isso pode ser representado com uma distribuição Beta com os parâmetros e β = 219 :α=81β=219
curve(dbeta(x, 81, 219))

Eu vim com esses parâmetros por dois motivos:
- A média é αα+β=8181+219=.270
- Como você pode ver na trama, essa distribuição está quase inteiramente dentro
(.2, .35)- a faixa razoável para uma média de rebatidas.
Você perguntou o que o eixo x representa em um gráfico de densidade de distribuição beta - aqui ele representa sua média de rebatidas. Portanto, observe que, nesse caso, não apenas o eixo y é uma probabilidade (ou mais precisamente uma densidade de probabilidade), mas também o eixo x (a média de rebatidas é apenas a probabilidade de um acerto, afinal)! A distribuição Beta está representando uma distribuição de probabilidades .
Mas aqui está o porquê da distribuição Beta ser tão apropriada. Imagine que o jogador recebe um único golpe. Seu recorde para a temporada é agora 1 hit; 1 at bat. Temos que atualizar nossas probabilidades - queremos mudar toda essa curva um pouco para refletir nossas novas informações. Embora a matemática para provar isso esteja um pouco envolvida ( é mostrada aqui ), o resultado é muito simples . A nova distribuição Beta será:
Beta(α0+hits,β0+misses)
α0β0αβBeta(81+1,219)
curve(dbeta(x, 82, 219))

Observe que ele quase não mudou - a mudança é realmente invisível a olho nu! (Isso ocorre porque um hit não significa realmente nada).
Beta(81+100,219+200)
curve(dbeta(x, 81+100, 219+200))

Observe que agora a curva está mais fina e deslocada para a direita (maior média de rebatidas) do que costumava ser - temos uma noção melhor de qual é a média de rebatidas do jogador.
αα+β81+10081+100+219+200=.303100100 + 200= 0,3338181 + 219= 0,270
Assim, a distribuição Beta é melhor para representar uma distribuição probabilística de probabilidades - o caso em que não sabemos antecipadamente qual é a probabilidade, mas temos algumas suposições razoáveis.