Eu gostaria de salientar, uma vez que este é um dos principais hits do Google para este tópico, que Alocação de Dirichlet Latente (LDA), Processos Hierárquicos de Dirichlet (HDP) e Alocação Latente de Dirichlet Latente (hLDA) são modelos distintos.
A LDA modela os documentos como misturas dirichlet de um número fixo de tópicos - escolhido como parâmetro do modelo pelo usuário - que, por sua vez, são misturas dirichlet de palavras. Isso gera um agrupamento probabilístico simples e suave de termos em tópicos e documentos em tópicos.
O HDP modela os tópicos como misturas de palavras, assim como o LDA, mas, em vez de documentos serem misturas de um número fixo de tópicos, o número de tópicos é gerado por um processo de dirichlet, resultando no número de tópicos também como uma variável aleatória. A parte "hierárquica" do nome refere-se a outro nível sendo adicionado ao modelo generativo (o processo dirichlet que produz o número de tópicos), não aos tópicos em si - os tópicos ainda são agrupamentos simples.
O hLDA, por outro lado, é uma adaptação do LDA que modela os tópicos como misturas de um novo e distinto nível de tópicos, extraído das distribuições de dirichlete não processos. Ele ainda trata o número de tópicos como um hiperparâmetro, ou seja, independente dos dados. A diferença é que o agrupamento agora é hierárquico - ele aprende um agrupamento do primeiro conjunto de tópicos, oferecendo um relacionamento mais geral e abstrato entre os tópicos (e, portanto, palavras e documentos). Pense nisso como agrupar as trocas de pilhas em matemática, ciências, programação, história etc., em vez de agrupar ciência de dados e validação cruzada em um tópico abstrato de estatística e programação que compartilha alguns conceitos com, por exemplo, engenharia de software, mas a engenharia de software as trocas estão agrupadas em um nível mais concreto com as trocas de ciência da computação, e a semelhança entre todas as trocas mencionadas não aparece tanto até a camada superior dos clusters.