Aqui está um exemplo de estimativa de uma média, , a partir de dados contínuos normais. Antes de nos aprofundarmos diretamente em um exemplo, gostaria de revisar algumas das matemáticas dos modelos de dados Bayesianos Normal-Normal.θ
y1 1, . . . , yny= ( y1 1, . . . , yn)T
y1 1, . . . ,yn| θ ∼ N( θ , σ2)
Ou, como mais tipicamente escrito por Bayesiano,
y1 1, . . . , yn| θ∼N( θ , τ)
τ= 1 / σ2τ
yEu
f( yEu| θ,τ) = (√τ2 π) × e x p ( - τ( yEu- θ )2/ 2 )
θ^= y¯
θ
θ ∼ N( a , 1 / b )
A distribuição posterior que obtemos deste modelo de dados Normal-Normal (após muita álgebra) é outra distribuição Normal.
q | y∼ N( bb + n τa + n τb + n τy¯, 1b + n τ)
b + n τumay¯bb + n τa + n τb + n τy¯
q | yθθ
Dito isto, agora você pode usar qualquer exemplo de livro de dados Normal para ilustrar isso. Usarei o conjunto de dados airquality
em R. Considere o problema de estimar a velocidade média do vento (MPH).
> ## New York Air Quality Measurements
>
> help("airquality")
>
> ## Estimating average wind speeds
>
> wind = airquality$Wind
> hist(wind, col = "gray", border = "white", xlab = "Wind Speed (MPH)")
>
> n = length(wind)
> ybar = mean(wind)
> ybar
[1] 9.957516 ## "frequentist" estimate
> tau = 1/sd(wind)
>
>
> ## but based on some research, you felt avgerage wind speeds were closer to 12 mph
> ## but probably no greater than 15,
> ## then a potential prior would be N(12, 2)
>
> a = 12
> b = 2
>
> ## Your posterior would be N((1/))
>
> postmean = 1/(1 + n*tau) * a + n*tau/(1 + n*tau) * ybar
> postsd = 1/(1 + n*tau)
>
> set.seed(123)
> posterior_sample = rnorm(n = 10000, mean = postmean, sd = postsd)
> hist(posterior_sample, col = "gray", border = "white", xlab = "Wind Speed (MPH)")
> abline(v = median(posterior_sample))
> abline(v = ybar, lty = 3)
>
> median(posterior_sample)
[1] 10.00324
> quantile(x = posterior_sample, probs = c(0.025, 0.975)) ## confidence intervals
2.5% 97.5%
9.958984 10.047404
Nesta análise, o pesquisador (você) pode dizer que, dados fornecidos + informações prévias, sua estimativa de vento médio, usando o percentil 50, as velocidades devem ser 10,00324, maiores do que simplesmente usar a média dos dados. Você também obtém uma distribuição completa, da qual é possível extrair um intervalo credível de 95% usando os quantis 2.5 e 97.5.
Abaixo eu incluo duas referências, eu recomendo a leitura do pequeno artigo de Casella. Destina-se especificamente aos métodos empíricos de Bayes, mas explica a metodologia bayesiana geral para modelos normais.
Referências:
Casella, G. (1985). Uma introdução à análise empírica de dados de Bayes. The American Statistician, 39 (2), 83-87.
Gelman, A. (2004). Análise de dados bayesiana (2ª ed., Textos em ciência estatística). Boca Raton, Flórida: Chapman & Hall / CRC.