A resposta depende se você está assumindo a distribuição de dirichlet simétrico ou assimétrico (ou, mais tecnicamente, se a medida base é uniforme). A menos que outra coisa seja especificada, a maioria das implementações do LDA assume que a distribuição é simétrica.
Para a distribuição simétrica, um alto valor alfa significa que cada documento provavelmente conterá uma mistura da maioria dos tópicos, e não um tópico específico. Um baixo valor alfa impõe menos restrições a esses documentos e significa que é mais provável que um documento contenha apenas alguns, ou mesmo apenas um dos tópicos. Da mesma forma, um alto valor beta significa que é provável que cada tópico contenha uma mistura da maioria das palavras, e não qualquer palavra especificamente, enquanto um valor baixo significa que um tópico pode conter uma mistura de apenas algumas palavras.
Se, por outro lado, a distribuição for assimétrica, um alto valor alfa significa que uma distribuição de tópico específica (dependendo da medida base) é mais provável para cada documento. Da mesma forma, valores beta altos significam que cada tópico tem mais probabilidade de conter uma mistura específica de palavras definida pela medida base.
Na prática, um alto valor alfa levará os documentos a serem mais semelhantes em termos de quais tópicos eles contêm. Um valor beta alto também levará os tópicos a serem mais semelhantes em termos de quais palavras eles contêm.
Portanto, sim, os parâmetros alfa especificam crenças anteriores sobre escassez / uniformidade de tópicos nos documentos. Não tenho muita certeza do que você quer dizer com "exclusividade mútua de tópicos em termos de palavras".
Mais geralmente, esses são parâmetros de concentração para a distribuição de dirichlet usada no modelo de LDA. Para obter uma compreensão intuitiva de como isso funciona, esta apresentação contém algumas ilustrações agradáveis, além de uma boa explicação do LDA em geral.
Um comentário adicional que colocarei aqui, já que não posso comentar sua pergunta original: Pelo que vi, os parâmetros alfa e beta podem se referir de maneira um tanto confusa a várias parametrizações diferentes. A distribuição subjacente do dirichlet geralmente é parametrizada com o vetor , mas isso pode ser decomposto na medida base e na concentração parâmetro , de modo que . No caso em que o parâmetro alfa é um escalar, geralmente significa o parâmetro de concentração , mas também pode significar os valores deL = ( U 1 , U 2 , . . . , U K ) α α * u = ( α 1 , ct 2 , . . . , Α K ) α ( α 1 , ct 2 , . . . ,( α1, α2, . . . , αK)u = ( u1, u2, . . . , uK)αα ∗ u = ( α1, α2, . . . , αK)α( α1, α2, . . . , αK), uma vez que estes serão iguais na distribuição de dirichlet simétrico. Se for um vetor, geralmente se refere a . Não sei ao certo qual parametrização é mais comum, mas, em minha resposta, suponho que você quis dizer os valores alfa e beta como parâmetros de concentração.( α1, α2, . . . , αK)