Quando usar LDA sobre GMM para cluster?

Eu tenho um conjunto de dados contendo atividade do usuário com 168 dimensões, onde desejo extrair clusters usando aprendizado não supervisionado. Não é óbvio para mim se devo usar uma abordagem de modelagem de tópicos na alocação de Dirichlet Latente (LDA) ou Modelos de Mistura Gaussiana (GMM), que é mais uma abordagem bayesiana. A esse respeito, tenho 2 perguntas relacionadas:

Qual é o principal diferenciador entre os dois métodos? Conheço o básico dos dois modelos, mas estou curioso sobre o que realmente diferencia um dos outros. Alguma coisa no problema / dados pode me dizer se um modelo é mais adequado?
Se eu aplicar os dois métodos aos meus dados, como posso comparar os resultados para ver qual método é melhor?

Atualizar

As 168 variáveis de atividade dos usuários são contagens de uma atividade, mantendo valores discretos positivos. Não há valor máximo, mas aproximadamente 90% das variáveis atingem valores no intervalo . $[0,3]$

Pode fazer sentido simplesmente modelar todas essas variáveis de atividade como variáveis binárias que descrevem se é zero ou diferente de zero, mas ainda não sabemos o suficiente sobre o problema para determinar isso. A principal coisa que procuramos são insights sobre os diferentes grupos de atividades do usuário.

— pir
fonte

O LDA não exige que seus dados sejam todas variáveis categóricas multinomiais, enquanto o GMM certamente exige que seus dados sejam todas variáveis contínuas. Que tipo de dados são suas 168 variáveis de atividade do usuário?

— gung - Restabelece Monica

Isso pode ser. Consulte a postagem original atualizada.

— pir

Eu não usaria modelos de mistura gaussianos , pois eles exigem que as distribuições constituintes sejam normais. Você tem contagens, portanto, o GMM é inadequado por definição.

A alocação de Dirichlet latente (divulgação completa: eu realmente não sei modelagem de tópicos) requer que seus dados sejam multinomiais , mas você pode ter contagens nesse caso - elas seriam contagens de ocorrências de diferentes categorias de uma variável. Outra possibilidade é que suas contagens sejam contadas com variáveis diferentes, como em ter várias variáveis de Poisson . Essa é uma pergunta ontológica sobre como você está pensando em seus dados.

Considere um exemplo simples em que vou ao supermercado porque quero frutas. Comprarei um certo número de maçãs, laranjas, pêssegos e bananas. Cada um deles pode ser considerado uma variável Poisson separada. Quando chego em casa, coloco todos eles em uma tigela de frutas. Mais tarde, quando estiver com vontade de fazer um lanche, posso pegar a tigela sem olhar e pegar dois pedaços de frutas (por exemplo, uma maçã e um pêssego). Isso pode ser considerado um empate de uma distribuição multinomial. Nos dois casos, tenho contagens de categorias, mas pensamos nelas de maneira diferente. No primeiro caso, as frutas que comprarei são conhecidas antes de chegar ao supermercado, mas o número comprado em cada categoria pode variar. No segundo caso, não sei quais frutas vou colher, mas sei que estou pegando duas das possíveis.

Se seus dados são como o exemplo da fruteira, o LDA pode ser apropriado para você. Por outro lado, se eles são como o exemplo do supermercado, você pode tentar a modelagem de mistura finita de Poisson . Ou seja, você pode usar a modelagem de mistura com distribuições diferentes de Gaussian / normal. GMMs são os mais comuns de longe; outras distribuições (como Poisson) são mais exóticas. Não sei o quão amplamente implementadas elas são em software. Se você usa R, o Google levou à descoberta de ? PoisMixClus no pacote HTSCluster e no pacote rebmix (observe que eu nunca usei ou fiz a modelagem de mistura de Poisson). Pode ser possível encontrar implementações para outros softwares também.

Adicionando alguns detalhes: eu diria que o LDA é pelo menos uma técnica bayesiana como o GMM.

Suspeito que a diferenciação mais importante entre LDA e GMM seja o tipo de dados que eles assumem.
Você não pode compará-los, porque eles são para diferentes tipos de dados. (Também não gostaria de comparar LDA e Poisson MM, pois eles conceituam as contagens de maneira diferente.)

Eu não dicotomizaria seus dados em zero / diferente de zero.

— - Reinstate Monica
fonte

Essas 168 variáveis de atividade do usuário são contadas ao longo de uma semana, quando na verdade temos várias semanas de dados para cada usuário. Se utilizássemos a média de mais de 30 semanas de dados de contagem e a utilizássemos para o clustering - isso faria diferença? Com base no meu entendimento do CLT, as variáveis com base na média seriam distribuídas normalmente e, portanto, mantêm o requisito para GMM.

— pir

Os meios das distribuições com N grande devem ser normais. Eu acho que você poderia usar o GMM então.

— gung - Restabelece Monica