Implementação: O pacote topicmodels fornece uma interface para o código GSL C e C ++ para modelos de tópicos de Blei et al. e Phan et al. Para o anterior, usa EM Variacional, para o último Gibbs Sampling. Consulte http://www.jstatsoft.org/v40/i13/paper . O pacote funciona bem com os utilitários do pacote tm.
O pacote lda usa um Gibbs Sampler recolhido para vários modelos semelhantes aos da biblioteca GSL. No entanto, foi implementado pelos próprios autores do pacote, não por Blei et al. Portanto, essa implementação difere em geral da técnica de estimativa proposta nos artigos originais que introduzem essas variantes de modelo, onde o algoritmo VEM é geralmente aplicado. Por outro lado, o pacote oferece mais funcionalidade que o outro pacote. O pacote também fornece funcionalidade de mineração de texto.
Extensibilidade: em relação à extensibilidade, o código de modelo de tópico, por sua própria natureza, pode ser estendido para fazer interface com outro código de modelo de tópico escrito em C e C ++. O pacote lda parece depender mais da implementação específica fornecida pelos autores, mas o amostrador Gibbs pode permitir especificar seu próprio modelo de tópico. Para problemas de extensibilidade, nota bene, o primeiro é licenciado sob a GPL-2 e o segundo LGPL, portanto, pode depender do que você precisa estender (a GPL-2 é mais rigorosa em relação ao aspecto do código aberto, ou seja, você não pode usá-lo em software proprietário).
Desempenho: não posso ajudá-lo aqui, usei apenas modelos de tópicos até agora.
Conclusão:
Pessoalmente, eu uso topicmodels
, como está bem documentado (consulte o artigo JSS acima) e confio nos autores (Grün também implementou o flexmix e Hornik é o membro central do R).