Laplace suavização e Dirichlet antes

11

No artigo da wikipedia sobre suavização de Laplace (ou suavização aditiva), diz-se que, do ponto de vista bayesiano,

isso corresponde ao valor esperado da distribuição posterior, usando uma distribuição simétrica de Dirichlet com o parâmetro como anterior. $\alpha$

Estou confuso sobre como isso é realmente verdade. Alguém poderia me ajudar a entender como essas duas coisas são equivalentes?

Obrigado!

— DanielX2010
fonte

10

Certo. Esta é essencialmente a observação de que a distribuição de Dirichlet é um conjugado anterior para a distribuição multinomial. Isso significa que eles têm a mesma forma funcional. O artigo menciona isso, mas vou enfatizar que isso decorre do modelo de amostragem multinomial. Então, indo direto ao assunto ...

$x$ $K$ $N = \sum_{i=1}^K x_i$ $x$ $\pi$ $\mathrm{Dir}(\alpha)$ $K$

$\pi$ $\alpha$ $x$

p (π | x, α) = p (x | π) p (π | α)

$p(\pi | x, \alpha) = p(x | \pi) p(\pi|\alpha)$

$p(x|\pi)$

p (x | π) = \frac{N!}{x_{1}! \dots x_{k}!} π_{1}^{x_{1}} \dots π_{k}^{x_{k}}

$p(x|\pi) = \frac{N!}{x_1!\cdots x_k!} \pi_1^{x_1} \cdots \pi_k^{x_k}$

e

p (π | α) = \frac{1}{B (α)} \prod_{i = 1}^{K} π_{i}^{α - 1}

$p(\pi|\alpha) = \frac{1}{\mathrm{B}(\alpha)} \prod_{i=1}^K \pi_i^{\alpha - 1}$

$\mathrm{B}(\alpha) = \frac{\Gamma(\alpha)^K}{\Gamma(K\alpha)}$

p (π | α, x) = p (x | π) p (π | α) \propto \prod_{i = 1}^{K} π_{i}^{x_{i} + α - 1} .

$p(\pi|\alpha,x) = p(x | \pi) p(\pi|\alpha) \propto \prod_{i=1}^K \pi_i^{x_i + \alpha - 1}.$

Em outras palavras, o posterior também é Dirichlet. A questão era sobre a média posterior. Como o posterior é Dirichlet, podemos aplicar a fórmula da média de um Dirichlet para descobrir que,

E [π_{i} | α, x] = \frac{x_{i} + α}{N + K α} .

$E[\pi_i | \alpha, x] = \frac{x_i + \alpha}{N + K\alpha}.$

Espero que isto ajude!

— Sim
fonte

p (π | α, x) = p (x | π) p (π | α) / p (x | α),

$p(\pi | \alpha, x) = p(x | \pi)p(\pi | \alpha)/p(x | \alpha),$

p (π | α, x) = p (x | π) p (π | α) ?

$p(\pi | \alpha, x) = p(x | \pi)p(\pi | \alpha)?$

π

$\pi$ , mas escrever uma igualdade não é verdade, eu acho.

— Michal

\frac{α + n_{s u c c e s s}}{α + β + n_{s u c c e s s} + n_{f a i l u r e s}}

$\frac{\alpha + n_{success}}{\alpha + \beta + n_{success} + n_{failures}}$

\frac{α + n_{s u c c e s s} - 1}{α + β + n_{s u c c e s s} + n_{f a i l u r e s} - 2}

$\frac{\alpha + n_{success} - 1}{\alpha + \beta + n_{success} + n_{failures} - 2}$

α = β = 1

$\alpha = \beta = 1$

0

Como observação lateral, eu também gostaria de acrescentar outro ponto à derivação acima, que não é realmente sobre a questão principal. No entanto, falando sobre os anteriores de Dirichlet na distribuição multinomial, pensei em mencionar que qual seria a forma da função de probabilidade se considerarmos as probabilidades como variáveis incômodas.

$p(\pi | \alpha, x)$ $\prod_{i=1}^{K} \, \pi_i^{x_i+\alpha-1}$ $p(x|\alpha)$

p (x | α) = \int \prod_{i = 1}^{K} p (x | π_{i}, α) p (π | α) d π_{1} d π_{2} . . . d π_{K}

$\begin{equation} p(x | \alpha) = \int \prod_{i=1}^{K}p(x | \pi_i, \alpha)p(\pi|\alpha) \mathrm{d} \pi_1 \mathrm{d} \pi_2 ...\mathrm{d} \pi_K \end{equation}$

p (x | α) = \frac{Γ (K α)}{Γ (N + K α)} \prod_{i = 1}^{K} \frac{Γ (x_{i} + α)}{Γ (α)}

$\begin{equation} p(x|\alpha) = \frac{\Gamma(K\alpha)}{\Gamma(N + K\alpha)} \prod_{i=1}^{K} \frac{\Gamma(x_i + \alpha)}{\Gamma(\alpha)} \end{equation}$

$N$

— omidi
fonte