A distribuição Dirichlet é uma distribuição multivariada. Podemos denotar os parâmetros do Dirichlet como um vetor de tamanho K da forma ~ , em queumaé o vector de tamanhoKdos parâmetros, eΣxi=1.1B ( a )⋅ ∏Euxumai - 1EuumaK∑ xEu= 1
Agora o LDA usa algumas construções como:
- um documento pode ter vários tópicos (por causa dessa multiplicidade, precisamos da distribuição Dirichlet); e há uma distribuição Dirichlet que modela essa relação
- as palavras também podem pertencer a vários tópicos, quando você as considera fora de um documento; então aqui precisamos de outro Dirichlet para modelar isso
As duas anteriores são distribuições que você realmente não vê nos dados; é por isso que é chamado latente ou oculto.
xθ
p ( θ | x ) = p ( x | θ ) p ( θ | α )p ( x | α )⟺probabilidade posterior = probabilidade × probabilidade anteriorprobabilidade marginal
α
Os parâmetros do anterior são chamados hiperparâmetros . Assim, no LDA, ambas as distribuições de tópicos, sobre documentos e sobre palavras também têm anteriores correspondentes, que são denotados geralmente com alfa e beta, e porque os parâmetros das distribuições anteriores são chamados hiperparâmetros.
αkx
αk
αk
αk
Além disso, observe que os valores dos parâmetros anteriores produzem PDFs suaves da distribuição, pois os valores dos parâmetros estão próximos de 1. Portanto, se você tem grande confiança de que algo está claramente distribuído de uma maneira que você sabe, com um alto grau de confiança, valores distantes de 1 em valor absoluto devem ser utilizados, se você não tiver esse tipo de conhecimento, pois valores próximos a 1 codificariam essa falta de conhecimento. É fácil ver por que 1 desempenha esse papel na distribuição de Dirichlet a partir da fórmula da própria distribuição.
αkαk
Espero que tenha ajudado.