Colocando um prior no parâmetro de concentração em um processo de Dirichlet

A maior parte disso é de fundo, pule para o final se você já souber o suficiente sobre as misturas de processos do Dirichlet . Suponha que eu estou modelando alguns dados como provenientes de uma mistura de processos de Dirichlet, ou seja, permita que e condicional em assumam $F \sim \mathcal D(\alpha H)$ $F$

Y_{i} \overset{i i d}{\sim} \int f (y | θ) F (d θ) .

$Y_i \stackrel {iid}{\sim} \int f(y | \theta) F(d\theta).$

Aqui e é a medida base anterior. Acontece que, para cada observação , se eu souber o latente associado , a probabilidade de neste modelo é onde é o número de valores distintos de (a medida aleatória é discreta quase certamente). Escobar e West desenvolvem o seguinte esquema para amostragem usando um Gamma anterior; primeiro, eles escrevem $\alpha > 0$ $\alpha H$ $Y_i$ $\theta_i$ $\alpha$

L (α | t) \propto \frac{α^{t} Γ (α)}{Γ (α + n)}

$L(\alpha | t) \propto \frac{\alpha^t\Gamma(\alpha)}{\Gamma(\alpha + n)}$

t

$t$

θ_{i}

$\theta_i$

F

$F$

α

$\alpha$

π (α | t) \propto π (α) \frac{α^{t} Γ (α)}{Γ (α + n)} \propto π (α) α^{t - 1} (α + n) B (α + 1, n) = π (α) α^{t - 1} (α + n) \int_{0}^{1} x^{α} (1 - x)^{n - 1} d x,

$\pi(\alpha | t) \propto \pi(\alpha) \frac{\alpha^t\Gamma(\alpha)}{\Gamma(\alpha + n)} \propto \pi(\alpha)\alpha^{t - 1}(\alpha + n){B(\alpha + 1, n)} \\= \pi(\alpha)\alpha^{t - 1} (\alpha + n) \int_0^1 x^\alpha(1 - x)^{n - 1} \ dx,$ que é a função beta. Então observe que, se introduzirmos um parâmetro latente , a probabilidade terá a forma de uma mistura de distribuições Gamma e usaremos isso para escrever um amostrador Gibbs.

B (\cdot, \cdot)

$B(\cdot, \cdot)$

X \sim Beta (α + 1, n)

$X \sim \mbox{Beta}(\alpha + 1, n )$

Agora minha pergunta. Por que não podemos simplesmente escrever e vez de usar uma mistura de distribuições Gama, use uma única distribuição Gama? Se introduzirmos o , não devo fazer a mesma coisa, mas sem precisar usar a mistura?

L (α | t) \propto \frac{α^{t} Γ (α)}{Γ (α + n)} = \frac{α^{t} Γ (n) Γ (α)}{Γ (α + n) Γ (n)} = α^{t} B (α, n) Γ (n) \propto α^{t} \int_{0}^{1} x^{α - 1} (1 - x)^{n - 1} d x,

$L(\alpha | t) \propto \frac{\alpha^t \Gamma(\alpha)}{\Gamma(\alpha + n)} = \frac{\alpha^t \Gamma(n)\Gamma(\alpha)}{\Gamma(\alpha + n)\Gamma(n)} = \alpha^t B(\alpha, n) \Gamma(n) \\ \propto \alpha^t \int_0 ^ 1 x^{\alpha - 1} (1 - x)^{n - 1} \ dx,$

X \sim Beta (α, n)

$X \sim \mbox{Beta}(\alpha, n)$

Edite para obter mais detalhes Mais detalhes: Para preencher algumas lacunas, o argumento em Escobar e West é que, deixando ter uma distribuição Gamma com a forma e signifique , e, portanto, podemos introduzir um latente para queOs condicionais completos são uma distribuição para e uma mistura de a e um $\alpha$ $a$ $a / b$

π (α | t) \propto α^{a + t - 2} (α + n) e^{- b α} \int_{0}^{1} x^{α} (1 - x)^{n - 1} d x

$\pi(\alpha | t) \propto \alpha^{a + t - 2} (\alpha + n) e^{-b\alpha} \int_0 ^ 1 x^{\alpha} (1 - x)^{n - 1} \ dx$

X

$X$

π (α, x | t) \propto α^{a + t - 2} (α + n) e^{- b α} x^{α} (1 - x)^{n - 1} .

$\pi(\alpha, x | t) \propto \alpha^{a + t - 2} (\alpha + n) e^{-b\alpha}x^{\alpha}(1 - x)^{n - 1}.$

Beta (α + 1, n)

$\mbox{Beta}(\alpha + 1, n)$

X

$X$

G (a + t, b - \log (x))

$\mathcal G(a + t, b - \log(x))$

G (a + t - 1, b - \log (x))

$\mathcal G(a + t - 1, b - \log(x))$ para .

α

$\alpha$

Pelo mesmo argumento, obtive o mesmo resultado, mas com para e para . Isso me parece mais fácil; por que eles não fazem isso? $\mbox{Beta}(\alpha, n)$ $X$ $\mathcal G(a + t, b - \log(x))$ $\alpha$

bayesian nonparametric-bayes

— cara
fonte

Não vejo como o que você escreveu é fundamentalmente diferente de Escobar e West.

\begin{array}{rcl} π (α | t) & \propto & π (α) π (t | α) = π (α) L (α | t) \\ \propto & π (α) α^{t} \frac{Γ (α)}{Γ (α + n)} \\ \propto & π (α) α^{t} \frac{Γ (α) Γ (n)}{Γ (α + n)} \\ = & π (α) α^{t} B (α, n) \\ = & π (α) α^{t - 1} (α + n) B (α + 1, n) \end{array}

$\begin{eqnarray*} \pi(\alpha|t) &\propto& \pi(\alpha)\pi(t|\alpha) = \pi(\alpha)L(\alpha|t) \\ &\propto& \pi(\alpha)\alpha^t\frac{\Gamma(\alpha)}{\Gamma(\alpha+n)} \\ &\propto& \pi(\alpha)\alpha^t\frac{\Gamma(\alpha)\Gamma(n)}{\Gamma(\alpha+n)} \\ &=& \pi(\alpha)\alpha^tB(\alpha,n) \\ &=& \pi(\alpha)\alpha^{t-1}(\alpha+n)B(\alpha+1,n) \end{eqnarray*}$ onde a penúltima linha é como você a possui e a última linha é como E&W e são iguais desde que n) \ end {eqnarray *} lembrando que

\begin{array}{rcl} α B (α, n) & = & α \frac{Γ (α) Γ (n)}{Γ (α + n)} = \frac{(α Γ (α)) Γ (n) (α + n)}{(Γ (α + n) (α + n))} = (α + n) \frac{Γ (α + 1) Γ (n)}{Γ (α + n + 1)} \\ = & (α + n) B (α + 1, n) \end{array}

$\begin{eqnarray*} \alpha B(\alpha,n) &=& \alpha \frac{\Gamma(\alpha)\Gamma(n)}{\Gamma(\alpha + n)} = \frac{(\alpha\Gamma(\alpha))\Gamma(n)(\alpha+n)}{(\Gamma(\alpha + n)(\alpha+n))} = (\alpha+n) \frac{\Gamma(\alpha + 1)\Gamma(n)}{\Gamma(\alpha + n + 1)} \\ &=& (\alpha+n)B(\alpha+1,n) \end{eqnarray*}$

Γ (z + 1) = z Γ (z)

$\Gamma(z+1) = z\Gamma(z)$ .

Suponho que eles preferiram a formulação deles à sua, porque ela possui apenas o termo da função Beta, não o produto de uma Beta e uma Gamma, mas posso estar errado. Não segui completamente o último pedaço que você escreveu, você poderia ser mais explícito sobre seu esquema de amostragem?

— Daniel Johnson
fonte

Adicionado detalhes extras em minha postagem.

— cara