Eu não usaria modelos de mistura gaussianos , pois eles exigem que as distribuições constituintes sejam normais. Você tem contagens, portanto, o GMM é inadequado por definição.
A alocação de Dirichlet latente (divulgação completa: eu realmente não sei modelagem de tópicos) requer que seus dados sejam multinomiais , mas você pode ter contagens nesse caso - elas seriam contagens de ocorrências de diferentes categorias de uma variável. Outra possibilidade é que suas contagens sejam contadas com variáveis diferentes, como em ter várias variáveis de Poisson . Essa é uma pergunta ontológica sobre como você está pensando em seus dados.
Considere um exemplo simples em que vou ao supermercado porque quero frutas. Comprarei um certo número de maçãs, laranjas, pêssegos e bananas. Cada um deles pode ser considerado uma variável Poisson separada. Quando chego em casa, coloco todos eles em uma tigela de frutas. Mais tarde, quando estiver com vontade de fazer um lanche, posso pegar a tigela sem olhar e pegar dois pedaços de frutas (por exemplo, uma maçã e um pêssego). Isso pode ser considerado um empate de uma distribuição multinomial. Nos dois casos, tenho contagens de categorias, mas pensamos nelas de maneira diferente. No primeiro caso, as frutas que comprarei são conhecidas antes de chegar ao supermercado, mas o número comprado em cada categoria pode variar. No segundo caso, não sei quais frutas vou colher, mas sei que estou pegando duas das possíveis.
Se seus dados são como o exemplo da fruteira, o LDA pode ser apropriado para você. Por outro lado, se eles são como o exemplo do supermercado, você pode tentar a modelagem de mistura finita de Poisson . Ou seja, você pode usar a modelagem de mistura com distribuições diferentes de Gaussian / normal. GMMs são os mais comuns de longe; outras distribuições (como Poisson) são mais exóticas. Não sei o quão amplamente implementadas elas são em software. Se você usa R, o Google levou à descoberta de ? PoisMixClus no pacote HTSCluster e no pacote rebmix (observe que eu nunca usei ou fiz a modelagem de mistura de Poisson). Pode ser possível encontrar implementações para outros softwares também.
Adicionando alguns detalhes: eu diria que o LDA é pelo menos uma técnica bayesiana como o GMM.
- Suspeito que a diferenciação mais importante entre LDA e GMM seja o tipo de dados que eles assumem.
- Você não pode compará-los, porque eles são para diferentes tipos de dados. (Também não gostaria de comparar LDA e Poisson MM, pois eles conceituam as contagens de maneira diferente.)
Eu não dicotomizaria seus dados em zero / diferente de zero.