Desculpe pela resposta tardia, mas isso também me incomodou e eu encontrei a resposta. A distribuição é realmente Dirichlet-Multinomial e o indivíduo neg. as distribuições binomiais nem precisam ser idênticas, desde que o fator Fano (razão de variância / média) seja idêntico.
Resposta longa:
Se você parametrizar NB como:
p(X=x|λ,θ)=NB(x|λ,θ)=(θ−1λ+x−1x)(11+θ−1)x(θ−11+θ−1)θ−1λ
Então e eE(X)=λVar(X)=λ(1+θ)
∀i:Xi∼NB(λi,θ) implica
∑Xi∼NB(∑λi,θ)
Tomando a probabilidade dada a soma:
∏NB(xi|λi,θ)NB(∑xi|∑λi,θ)=(11+θ−1)∑xi(θ−11+θ−1)θ−1∑λi∏(θ−1λi+xi−1xi)(11+θ−1)∑xi(θ−11+θ−1)θ−1∑λi(θ−1∑λi+∑xi−1∑xi)==Γ(∑xi+1)Γ(θ−1∑λi)Γ(θ−1∑λi+∑xi)∏Γ(θ−1λi+xi)Γ(xi+1)Γ(θ−1λi)=DM(x1,...,xn|θ−1λ1,...,θ−1λn)
onde é a probabilidade Dirichlet-Multinomial. Isso resulta simplesmente do fato de que, exceto pelos coeficientes multinomiais, muitos dos termos da fração do lado esquerdo são cancelados, deixando apenas os termos da função gama que são os mesmos da probabilidade de DM.DM
Observe também que os parâmetros deste modelo não são identificáveis como aumento em com diminuição simultânea de todos os resultados exatamente na mesma probabilidade.θλi
A melhor referência que tenho para isso são as seções 2 a 3.1 de Guimarães e Lindrooth (2007): Controlando a sobredispersão em modelos de logit condicionais agrupados: Uma aplicação computacionalmente simples da regressão Dirichlet-multinomial - infelizmente é paga pela parede, mas não consegui encontre uma referência não paga.