A medida do ponto médio é uma distribuição de mistura dos dois normais normais multivariados, portanto, não possui a forma que você fornece na postagem original. Seja a função de densidade de probabilidade de um vetor aleatório e seja o pdf de . Então o pdf da medida do ponto médio é
Mφp(x)N(μp,Σp)φq(x)N(μq,Σq)
φm(x)=12φp(x)+12φq(x).
A divergência de Jensen-Shannon é
onde indica o (diferencial) entropia correspondente à medida .
JSD=12(KL(P∥M)+KL(Q∥M))=h(M)−12(h(P)+h(Q)),
h(P)P
Assim, seu cálculo se reduz ao cálculo de entropias diferenciais. Para o normal multivariado , a resposta é bem conhecida como
e a prova pode ser encontrada em qualquer número de fontes, por exemplo, Cover e Thomas (1991), pp. 230-231. Vale ressaltar que a entropia de uma normal multivariada é invariável em relação à média, como mostra a expressão acima. No entanto, isso quase certamente não passa para o caso de uma mistura de normais. (Pense em escolher um normal largo centralizado em zero e outro normal concentrado, onde este último é empurrado para longe da origem.)N(μ,Σ)
12log2((2πe)n|Σ|)
Para a medida do ponto médio, as coisas parecem ser mais complicadas. Que eu saiba, não há expressão de forma fechada para a entropia diferencial . A pesquisa no Google gera alguns hits em potencial, mas os principais não parecem fornecer formulários fechados no caso geral. Você pode ficar preso em aproximar essa quantidade de alguma forma.h(M)
Observe também que o documento que você faz referência não restringe o tratamento apenas a distribuições discretas. Eles tratam um caso geral o suficiente para que seu problema se enquadre na estrutura deles. Veja o meio da coluna dois na página 1859. Aqui também é mostrado que a divergência é limitada. Isso vale para o caso de duas medidas gerais e não se restringe ao caso de duas distribuições discretas.
A divergência Jensen-Shannon surgiu algumas vezes recentemente em outras perguntas neste site. Veja aqui e aqui .
Adendo : Observe que uma mistura de normais não é a mesma que uma combinação linear de normais. A maneira mais simples de ver isso é considerar o caso unidimensional. Deixe e e deixe que sejam independentes um do outro. Em seguida, uma mistura das duas normais usando pesos para tem a distribuição
X1∼N(−μ,1)X2∼N(μ,1)(α,1−α)α∈(0,1)
φm(x)=α⋅12π−−√e−(x+μ)22+(1−α)⋅12π−−√e−(x−μ)22.
A distribuição de uma combinação linear de e usando os mesmos pesos de antes é, através da propriedade estável da distribuição normal,
que .X1X2
φℓ(x)=12πσ2−−−−√e−(x−(1−2α)μ)22σ2,
σ2=α2+(1−α)2
Essas duas distribuições são muito diferentes, embora tenham a mesma média. Isso não é um acidente e decorre da linearidade das expectativas.
Para entender a distribuição da mistura, imagine que você teve que procurar um consultor estatístico para que ela pudesse produzir valores dessa distribuição para você. Ela possui uma realização de em uma palma e uma realização de na outra palma (embora você não saiba em qual das duas palmas cada uma está). Agora, sua assistente lança uma moeda tendenciosa com probabilidade fora de vista e depois sussurra o resultado no ouvido do estatístico. Ela abre uma das palmas e mostra a realização, mas não informa o resultado do lançamento da moeda. Este processo produz a distribuição da mistura.X1X2α
Por outro lado, a combinação linear pode ser entendida no mesmo contexto. O consultor estatístico apenas pega as duas realizações, multiplica a primeira por e a segunda por , adiciona o resultado e mostra a você.α(1−α)