Por que a distribuição Dirichlet é anterior à distribuição multinomial?

36

No algoritmo de modelo de tópico do LDA, vi essa suposição. Mas não sei por que escolheu a distribuição Dirichlet? Não sei se podemos usar a distribuição Uniform sobre Multinomial como um par?

bayesian dirichlet-distribution conjugate-prior

— ColinBinWang
fonte

5

A distribuição uniforme é um caso especial da distribuição dirichlet.

— Stumpy Joe Pete

60

A distribuição de Dirichlet é um conjugado anterior para a distribuição multinomial. Isso significa que, se a distribuição anterior dos parâmetros multinomiais for Dirichlet, a distribuição posterior também será uma distribuição de Dirichlet (com parâmetros diferentes dos do anterior). O benefício disso é que (a) a distribuição posterior é fácil de calcular e (b) em certo sentido é possível quantificar quanto nossas crenças mudaram após a coleta dos dados.

Certamente, pode-se discutir se essas são boas razões para escolher um determinado particular, pois esses critérios não estão relacionados às crenças anteriores reais ... No entanto, os anteriores conjugados são populares, pois geralmente são razoavelmente flexíveis e convenientes de usar pelos motivos expostos acima. .

Para o caso especial da distribuição multinomial, seja o vetor de parâmetros multinomiais (isto é, as probabilidades para as diferentes categorias). Se antes da coleta dos dados, faça observações nas diferentes categorias $(p_1,\ldots,p_k)$

(p_{1 1}, ..., p_{k}) \sim Dirichlet (α_{1 1}, ..., α_{k})

$(p_1,\ldots,p_k)\sim \mbox{Dirichlet}(\alpha_1,\ldots,\alpha_k)$

(x_{1}, \dots, x_{k})

$(x_1,\ldots,x_k)$

(p_{1 1}, ..., p_{k}) | (x_{1 1}, ..., x_{k}) \sim Dirichlet (α_{1 1} + x_{1 1}, ..., α_{k} + x_{k}) .

$(p_1,\ldots,p_k)\Big|(x_1,\ldots,x_k)\sim \mbox{Dirichlet}(\alpha_1+x_1,\ldots,\alpha_k+x_k).$

$\alpha_1=\alpha_2=\cdots=\alpha_k=1$ $\alpha_1=\cdots=\alpha_k=1/2$

— MånsT
fonte

Por isso, escolhemos a distribuição Dirichlet para esses benefícios.

— ColinBinWang

11

+1: você pode dizer explicitamente que a probabilidade é necessariamente Dirichlet, e é por isso que a distribuição posterior é fácil de calcular.

— Neil G.

18

Além disso, em vez de contradição com resposta de Måns T , simplesmente aponto que não existe o "anterior" na modelagem bayesiana! A distribuição de Dirichlet é uma escolha conveniente devido a (a) conjugação, (b) computação e (c) conexão com estatísticas não paramétricas (já que esta é a versão discreta do processo de Dirichlet).

No entanto, (i) o que quer que você coloque antes nos pesos do multinomial é uma resposta legítima no nível subjetivo de Bayes e (ii) no caso de informações anteriores estarem disponíveis, não há motivo para simplificar a distribuição do Dirichlet. Observe também que misturas e convoluções das distribuições de Dirichlet podem ser usadas como anteriores.

— Xi'an
fonte