1. Estimador marginal de verossimilhança e média harmônica
A probabilidade marginal é definida como a constante de normalização da distribuição posterior
p ( x ) = ∫Θp ( x | θ ) p ( θ ) dθ .
A importância dessa quantidade vem do papel que ela desempenha na comparação de modelos via fatores Bayes .
Vários métodos foram propostos para aproximar essa quantidade. Raftery et al. (2007) propõem o estimador de média harmônica , que rapidamente se tornou popular devido à sua simplicidade. A ideia consiste em usar a relação
1p ( x )= ∫Θp ( θ | x )p ( x | θ )dθ .
Portanto, se temos uma amostra a partir do posterior, dizer , esta quantidade pode ser aproximada pela( θ1, . . . , θN)
1p ( x )≈ 1N∑j = 1N1p ( x | θj).
Essa aproximação está relacionada ao conceito de amostragem por importância .
Pela lei de grandes números, como discutido no blog de Neal , temos que esse estimador seja consistente . O problema é que o necessário para uma boa aproximação pode ser enorme. Veja o blog de Neal ou o blog de Robert 1 , 2 , 3 , 4 para alguns exemplos.N
Alternativas
Existem muitas alternativas para aproximar . Chopin e Robert (2008) apresentam alguns métodos baseados em amostragem Importance.p ( x )
2. Não executando o amostrador MCMC por tempo suficiente (especialmente na presença de multimodalidade)
Mendoza e Gutierrez-Peña (1999) deduzem a referência anterior / posterior para a razão de duas médias normais e apresentam um exemplo das inferências obtidas com este modelo usando um conjunto de dados reais. Usando métodos MCMC, eles obtêm uma amostra do tamanho da parte posterior da razão de médias φ que é mostrada abaixo2000φ
φ ( 0,63 , 5,29 )0 00 0
( 0 , 7,25 )
3. Algumas outras questões , como a avaliação da convergência, a escolha dos valores iniciais, o mau comportamento da cadeia, podem ser encontradas nesta discussão por Gelman, Carlin e Neal.
4. Amostragem de Importância
g
Eu= ∫f( x ) dx = ∫f( X )g( X )g( x ) dx .
g( x1, . . . , xN)Eu
Eu≈ 1N∑j = 1Nf( xj)g( xj).
gfN
# Integrating a Student's t with 1 d.f. using a normal importance function
x1 = rnorm(10000000) # N=10,000,000
mean(dt(x1,df=1)/dnorm(x1))
# Now using a Student's t with 2 d.f. function
x2 = rt(1000,df=2)
mean(dt(x2,df=1)/dt(x2,df=2))