Com o que os hiperparâmetros alfa e beta contribuem na alocação de Dirichlet latente?

19

O LDA possui dois hiperparâmetros, ajustando-os muda os tópicos induzidos.

O que os hiperparâmetros alfa e beta contribuem para o LDA?

Como o tópico muda se um ou outro hiperparâmetro aumenta ou diminui?

Por que eles são hiperparâmetros e não apenas parâmetros?

topic-model lda parameter

— alvas
fonte

aqui está uma boa resposta parcial: stats.stackexchange.com/a/37444/156252

— Greenish

16

A distribuição Dirichlet é uma distribuição multivariada. Podemos denotar os parâmetros do Dirichlet como um vetor de tamanho K da forma ~ , em queé o vector de tamanhodos parâmetros, e. $\frac{1}{B(a)} \cdot \prod\limits_{i} x_i^{a_{i-1}}$ $a$ $K$ $\sum x_i = 1$

Agora o LDA usa algumas construções como:

um documento pode ter vários tópicos (por causa dessa multiplicidade, precisamos da distribuição Dirichlet); e há uma distribuição Dirichlet que modela essa relação
as palavras também podem pertencer a vários tópicos, quando você as considera fora de um documento; então aqui precisamos de outro Dirichlet para modelar isso

As duas anteriores são distribuições que você realmente não vê nos dados; é por isso que é chamado latente ou oculto.

$x$ $\theta$

p (θ | x) = \frac{p (x | θ) p (θ | α)}{p (x | α)} ⟺ probabilidade posterior = \frac{probabilidade \times probabilidade prévia}{probabilidade marginal}

$p(\theta|x) = \frac{p(x|\theta)p(\theta|\alpha)}{p(x|\alpha)} \iff \text{posterior probability} = \frac{\text{likelihood}\times \text{prior probability}}{\text{marginal likelihood}}$

α

$\alpha$

Os parâmetros do anterior são chamados hiperparâmetros . Assim, no LDA, ambas as distribuições de tópicos, sobre documentos e sobre palavras também têm anteriores correspondentes, que são denotados geralmente com alfa e beta, e porque os parâmetros das distribuições anteriores são chamados hiperparâmetros.

$\alpha_k$ $x$

$\alpha_k$

Além disso, observe que os valores dos parâmetros anteriores produzem PDFs suaves da distribuição, pois os valores dos parâmetros estão próximos de 1. Portanto, se você tem grande confiança de que algo está claramente distribuído de uma maneira que você sabe, com um alto grau de confiança, valores distantes de 1 em valor absoluto devem ser utilizados, se você não tiver esse tipo de conhecimento, pois valores próximos a 1 codificariam essa falta de conhecimento. É fácil ver por que 1 desempenha esse papel na distribuição de Dirichlet a partir da fórmula da própria distribuição.

$\alpha_k$ $\alpha_k$

Espero que tenha ajudado.

— rapaio
fonte

Nós esperamos o mesmo sobre o suporte tex! : D

— Rubens

11

Supondo distribuições simétricas de Dirichlet (por simplicidade), um baixo valor alfa coloca mais peso em ter cada documento composto apenas por alguns tópicos dominantes (enquanto um valor alto retornará muitos tópicos relativamente dominantes). Da mesma forma, um baixo valor beta coloca mais peso em ter cada tópico composto por apenas algumas palavras dominantes.

— Alireza
fonte