A distribuição de Dirichlet é uma distribuição de probabilidade multivariada que descreve variáveis X 1 , … , X k , de modo que cada x i ∈ ( 0 , 1 ) e ∑ N i = 1 x i = 1 , que é parametrizado por um vetor de parâmetros com valor positivo α = ( α 1 , … , α k ) . Os parâmetros nãok≥2X1,…,Xkxi∈(0,1)∑Ni=1xi=1α=(α1,…,αk)tem que ser números inteiros, eles só precisam ser números reais positivos. Eles não são "normalizados" de forma alguma, são parâmetros dessa distribuição.
A distribuição Dirichlet é uma generalização da distribuição beta em várias dimensões, para que você possa começar aprendendo sobre a distribuição beta. Beta é uma distribuição univariada de uma variável aleatória parametrizada pelos parâmetros α e β . A boa intuição sobre isso ocorre se você se lembrar de que é um conjugado anterior para a distribuição binomial e se assumirmos um beta anterior parametrizado por α e β para o parâmetro de probabilidade p da distribuição binomial , a distribuição posterior deX∈(0,1)αβαβpptambém é uma distribuição beta parametrizada por e β ′ = β + número de falhas . Portanto, você pode pensar em α e β como em pseudocontagens (eles não precisam ser inteiros) de sucessos e falhas (verifique também este encadeamento ).α′=α+number of successesβ′=β+number of failuresαβ
No caso da distribuição Dirichlet, é um conjugado anterior para a distribuição multinomial . Se, no caso da distribuição binomial, podemos pensar em termos de desenhar bolas brancas e pretas com substituição da urna, então, no caso da distribuição multinomial, estamos desenhando com bolas substituição que aparecem em k cores, onde cada uma das cores das bolas podem ser sacadas com probabilidades p 1 , … , p k . A distribuição de Dirichlet é um conjugado anterior para p 1 , … , p k probabilidades e α 1Nkp1,…,pkp1,…,pk parâmetros α k podem ser considerados comopseudocontagensde bolas de cada cor assumidasa priori(mas você deve ler também sobre asarmadilhas desse raciocínio). No modelo Dirichlet-multinomial α 1 , … , α k é atualizado somando-os com as contagens observadas em cada categoria: α 1 + n 1 , … , α k + n k de maneira semelhante à do modelo beta-binomial.α1,…,αkα1,…,αkα1+n1,…,αk+nk
O valor mais alto de , o maior "peso" de X i e a maior quantidade de "massa" total são atribuídos a ele (lembre-se de que no total ele deve ser x 1 + ⋯ + x k = 1 ). Se todos os α i são iguais, a distribuição é simétrica. Se α i < 1 , pode ser pensado como anti-peso que empurra x i para extremos, enquanto quando é alto, atrai x i para algum valor central (central no sentido de que todos os pontos estão concentrados em torno dele, nãoαiXix1+⋯+xk=1αiαi<1xixino sentido em que é simetricamente central). Se , então os pontos são distribuídos uniformemente.α1=⋯=αk=1
Isso pode ser visto nas plotagens abaixo, onde é possível ver distribuições triviais de Dirichlet (infelizmente, podemos produzir plotagens razoáveis apenas até três dimensões) parametrizadas por (a) , (b) α 1 = α 2 = α 3 = 10 , (c) α 1 = 1 , α 2 = 10 , α 3 = 5 , (d) α 1 = α 2 = α 3α1=α2=α3=1α1=α2=α3=10α1=1,α2=10,α3=5 .α1=α2=α3=0.2
A distribuição de Dirichlet às vezes é chamada de "distribuição sobre distribuições" , pois pode ser pensada como uma distribuição de probabilidades. Observe que, uma vez que cada e ∑ k i = 1 x i = 1 , x i são consistentes com o primeiro e o segundo axiomas de probabilidade . Portanto, você pode usar a distribuição Dirichlet como uma distribuição de probabilidades para eventos discretos descritos por distribuições como categorias categóricas e nãoxi∈(0,1)∑ki=1xi=1xi ou multinomial . Isto éverdade que é uma distribuição sobre quaisquer distribuições, por exemplo, não está relacionada a probabilidades de variáveis aleatórias contínuas ou mesmo a algumas discretas (por exemplo, uma variável aleatória distribuída de Poisson descreve probabilidades de observar valores que são números naturais, portanto, use Para distribuir diretórios por suas probabilidades, você precisará de um número infinito de variáveis aleatórias ).k