Proporcionalidade é usada para simplificar a análise
A análise bayesiana é geralmente feita através de uma afirmação ainda mais simples do teorema de Bayes, onde trabalhamos apenas em termos de proporcionalidade em relação ao parâmetro de interesse. Para um modelo IID padrão com densidade de amostragem , podemos expressar isso como:f(X|θ)
p(θ|x)∝Lx(θ)⋅p(θ)Lx(θ)∝∏i=1nf(xi|θ).
Esta declaração de atualização bayesiana funciona em termos de proporcionalidade em relação ao parâmetro . Utiliza duas simplificações de proporcionalidade: uma no uso da função de verossimilhança (proporcional à densidade de amostragem) e outra na posterior (proporcional ao produto de verossimilhança e anterior). Como a posterior é uma função de densidade (no caso contínuo), a regra normativa define a constante multiplicativa necessária para produzir uma densidade válida (ou seja, para integrá-la a uma).θ
Esse método de uso da proporcionalidade tem a vantagem de nos permitir ignorar quaisquer elementos multiplicativos das funções que não dependem do parâmetro . Isso tende a simplificar o problema, permitindo-nos varrer partes desnecessárias da matemática e obter instruções mais simples do mecanismo de atualização. Este não é um requisito matemático (já que a regra de Bayes também funciona em sua forma não proporcional), mas simplifica as coisas para nossos minúsculos cérebros animais.θ
Um exemplo aplicado: considere um modelo de IID com dados observados . Para facilitar nossa análise, definimos as estatísticas e , que são os dois primeiros momentos de amostra. Para este modelo, temos densidade de amostragem:X1,...,Xn∼IID N(θ,1)x¯=1n∑ni=1xix¯¯=1n∑ni=1x2i
f(x|θ)=∏i=1nf(xi|θ)=∏i=1nN(xi|θ,1)=∏i=1n12π−−√exp(−12(xi−θ)2)=(2π)n/2exp(−12∑i=1n(xi−θ)2).=(2π)n/2exp(−n2(θ2−2x¯θ+x¯¯))=(2π)n/2exp(−nx¯¯2)⋅exp(−n2(θ2−2x¯θ))
Agora, podemos trabalhar diretamente com essa densidade de amostragem, se quisermos. Mas observe que os dois primeiros termos dessa densidade são constantes multiplicativas que não dependem de . É chato ter que acompanhar esses termos, então vamos nos livrar deles, para que tenhamos a função de probabilidade:θ
Lx(θ)=exp(−n2(θ2−2x¯θ)).
Isso simplifica um pouco as coisas, já que não precisamos acompanhar um termo adicional. Agora, poderíamos aplicar a regra de Bayes usando sua versão completa da equação, incluindo o denominador integral. Mas, novamente, isso exige que controlemos outra constante multiplicativa irritante que não depende de (mais irritante porque precisamos resolver uma integral para obtê-la). Então, vamos aplicar a regra de Bayes em sua forma proporcional. Usando o conjugado anterior , com algum parâmetro de precisão conhecido , obtemos o seguinte resultado ( preenchendo o quadrado ):θθ∼N(0,λ0)λ0>0
p(θ|x)∝Lx(θ)⋅p(θ)=exp(−n2(θ2−2x¯θ))⋅N(θ|0,λ0)∝exp(−n2(θ2−2x¯θ))⋅exp(−λ02θ2)=exp(−12(nθ2−2nx¯θ+λ0θ2))=exp(−12((n+λ0)θ2−2nx¯θ))=exp(−n+λ02(θ2−2nx¯n+λ0θ))∝exp(−n+λ02(θ−nn+λ0⋅x¯)2)∝N(θ∣∣nn+λ0⋅x¯,n+λ0).
Assim, a partir deste trabalho, podemos ver que a distribuição posterior é proporcional a uma densidade normal. Como o posterior deve ser uma densidade, isso implica que o posterior é a densidade normal:
p(θ|x)=N(θ∣∣nn+λ0⋅x¯,n+λ0).
Portanto, vemos que a posteriori o parâmetro é normalmente distribuído com a média e a variação posteriores dadas por:θ
E(θ|x)=nn+λ0⋅x¯V(θ|x)=1n+λ0.
Agora, a distribuição posterior que derivamos tem uma constante de integração na sua frente (o que podemos encontrar facilmente observando a forma da distribuição normal ). Mas observe que não precisamos nos preocupar com essa constante multiplicativa - todo o nosso trabalho removeu (ou trouxe) constantes multiplicativas sempre que isso simplificou a matemática. O mesmo resultado pode ser obtido mantendo o controle das constantes multiplicativas, mas isso é muito mais confuso.