Acho que talvez a melhor maneira de explicar a noção de probabilidade seja considerar um exemplo concreto. Suponhamos que temos uma amostra de observações IID desenhadas a partir de uma distribuição de Bernoulli com probabilidade desconhecido de sucesso : X i ~ B e r n o u l l i ( p ) , i = 1 , ... , n , de modo que a função de massa de probabilidade conjunta da amostra é Essa expressão também caracteriza a probabilidade depXi∼Bernoulli(p)i=1,…,n
Pr[X=x∣p]=∏i=1npxi(1−p)1−xi.
p, considerando uma amostra observada : Mas se pensarmos em como uma variável aleatória, essa probabilidade não é uma densidade: É, no entanto,
proporcional a uma densidade de probabilidade, razão pela qual dizemos que é provável que seja um valor específico, dada a amostra - representa, em certo sentido, a relativa plausibilidade de ser algum valor para as observações que fizemos.
x=(x1,…,xn)L(p∣x)=∏i=1npxi(1−p)1−xi.
p∫1p=0L(p∣x)dp≠1.
pp
Por exemplo, suponha que e a amostra seja . Intuitivamente, concluiríamos que é mais provável que seja mais próximo de do que , porque observamos mais. De fato, temos Se plotarmos essa função em , podemos ver como a probabilidade confirma nossa intuição. Obviamente, não sabemos o valor real de - poderia ter sido vez de , mas a função de probabilidade nos diz que o primeiro é muito menos provável que o segundo. Mas se queremos determinar uma probabilidaden=5x=(1,1,0,1,1)p10
L(p∣x)=p4(1−p).
p∈[0,1]pp=0.25p=0.8que está em um determinado intervalo, temos que normalizar a probabilidade: desde que , segue-se que em Para obter uma
densidade posterior para , devemos multiplicar por : De fato, essa posterior é uma distribuição beta com os parâmetros . Agora as áreas abaixo da densidade correspondem a probabilidades.
p∫1p=0p4(1−p)dp=130p30fp(p∣x)=30p4(1−p).
a=5,b=2
Portanto, o que fizemos aqui essencialmente é a regra de Bayes: Aqui, é uma distribuição anterior no (s) parâmetro (s) , o numerador é a probabilidade de que é também a distribuição conjunta de
fΘ(θ∣x)=fX(x∣θ)fΘ(θ)fX(x).
fΘ(θ)θL(θ∣x)=fX(x∣θ)fΘ(θ)=fX,Θ(x,θ)X,Θ , e o denominador é a densidade marginal (incondicional) de , obtida pela integração da distribuição conjunta em relação a para encontrar a constante de normalização que torna a probabilidade uma densidade de probabilidade com respeito ao (s) parâmetro (s). Em nosso exemplo numérico, assumimos implicitamente que o prior para seja uniforme em . Pode-se mostrar que, para uma amostra de Bernoulli, se o anterior for , o posterior para também será Beta, mas com os parâmetros ,
XθfΘ[0,1]Beta(a,b)fΘa∗=a+∑xib∗=b+n−∑xi. Chamamos esse
conjugado anterior (e nos referimos a isso como um par conjugado Bernoulli-Beta).