Divergência de Jensen-Shannon para distribuições normais bivariadas

8

Dadas duas distribuições normais bivariadas e , estou tentando calcular a divergência de Jensen-Shannon entre elas, definido (para o caso discreto) como: que é a divergência Kullback-Leibler e Encontrei a maneira de calcular em termos de parâmetros das distribuições e, portanto, . $P \equiv \mathcal{N}(\mu_p, \Sigma_p)$ $Q \equiv \mathcal{N}(\mu_q, \Sigma_q)$ $JSD(P\|Q) = \frac{1}{2} (KLD(P\|M)+ KLD(Q\|M))$ $KLD$ $M=\frac{1}{2}(P+Q)$
$KLD$ $JSD$

Minhas dúvidas são:

Para calcular $M$ , eu apenas fiz $M \equiv \mathcal{N}(\frac{1}{2}(\mu_p + \mu_q), \frac{1}{2}(\Sigma_p + \Sigma_q))$ . Isto está certo?
Eu li em [ 1 ] que o $JSD$ é limitado, mas isso não parece ser verdade quando o calculo como descrito acima para distribuições normais. Significa que estou calculando errado, violando uma suposição ou outra coisa que não entendo?

normal-distribution distance-functions information-theory

— jorges
fonte

8

A medida do ponto médio é uma distribuição de mistura dos dois normais normais multivariados, portanto, não possui a forma que você fornece na postagem original. Seja a função de densidade de probabilidade de um vetor aleatório e seja o pdf de . Então o pdf da medida do ponto médio é $\newcommand{\bx}{\mathbf{x}} \newcommand{\KL}{\mathrm{KL}}M$ $\varphi_p(\bx)$ $\mathcal{N}(\mu_p, \Sigma_p)$ $\varphi_q(\bx)$ $\mathcal{N}(\mu_q, \Sigma_q)$

φ_{m} (x) = \frac{1}{2} φ_{p} (x) + \frac{1}{2} φ_{q} (x) .

$\varphi_m(\bx) = \frac{1}{2} \varphi_p(\bx) + \frac{1}{2} \varphi_q(\bx) \> .$

A divergência de Jensen-Shannon é onde indica o (diferencial) entropia correspondente à medida .

J S D = \frac{1}{2} (K L (P ‖ M) + K L (Q ‖ M)) = h (M) - \frac{1}{2} (h (P) + h (Q)),

$\mathrm{JSD} = \frac{1}{2} (\KL(P\,\|M)+ \KL(Q\|M)) = h(M) - \frac{1}{2} (h(P) + h(Q)) \>,$

h (P)

$h(P)$

P

$P$

Assim, seu cálculo se reduz ao cálculo de entropias diferenciais. Para o normal multivariado , a resposta é bem conhecida como e a prova pode ser encontrada em qualquer número de fontes, por exemplo, Cover e Thomas (1991), pp. 230-231. Vale ressaltar que a entropia de uma normal multivariada é invariável em relação à média, como mostra a expressão acima. No entanto, isso quase certamente não passa para o caso de uma mistura de normais. (Pense em escolher um normal largo centralizado em zero e outro normal concentrado, onde este último é empurrado para longe da origem.) $\mathcal{N}(\mu, \Sigma)$

\frac{1}{2} \log_{2} ((2 π e)^{n} | Σ |)

$\frac{1}{2} \log_2\big((2\pi e)^n |\Sigma|\big)$

Para a medida do ponto médio, as coisas parecem ser mais complicadas. Que eu saiba, não há expressão de forma fechada para a entropia diferencial . A pesquisa no Google gera alguns hits em potencial, mas os principais não parecem fornecer formulários fechados no caso geral. Você pode ficar preso em aproximar essa quantidade de alguma forma. $h(M)$

Observe também que o documento que você faz referência não restringe o tratamento apenas a distribuições discretas. Eles tratam um caso geral o suficiente para que seu problema se enquadre na estrutura deles. Veja o meio da coluna dois na página 1859. Aqui também é mostrado que a divergência é limitada. Isso vale para o caso de duas medidas gerais e não se restringe ao caso de duas distribuições discretas.

A divergência Jensen-Shannon surgiu algumas vezes recentemente em outras perguntas neste site. Veja aqui e aqui .

Adendo : Observe que uma mistura de normais não é a mesma que uma combinação linear de normais. A maneira mais simples de ver isso é considerar o caso unidimensional. Deixe e e deixe que sejam independentes um do outro. Em seguida, uma mistura das duas normais usando pesos para tem a distribuição $X_1 \sim \mathcal{N}(-\mu, 1)$ $X_2 \sim \mathcal{N}(\mu, 1)$ $(\alpha, 1-\alpha)$ $\alpha \in (0,1)$

φ_{m} (x) = α \cdot \frac{1}{\sqrt{2 π}} e^{- \frac{(x + μ)^{2}}{2}} + (1 - α) \cdot \frac{1}{\sqrt{2 π}} e^{- \frac{(x - μ)^{2}}{2}} .

$\varphi_m(x) = \alpha \cdot \frac{1}{\sqrt{2\pi}} e^{-\frac{(x+\mu)^2}{2}} + (1-\alpha) \cdot \frac{1}{\sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2}} \> .$

A distribuição de uma combinação linear de e usando os mesmos pesos de antes é, através da propriedade estável da distribuição normal, que . $X_1$ $X_2$

φ_{ℓ} (x) = \frac{1}{\sqrt{2 π σ^{2}}} e^{- \frac{(x - (1 - 2 α) μ)^{2}}{2 σ^{2}}},

$\varphi_{\ell}(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-(1-2\alpha)\mu)^2}{2\sigma^2}} \>,$

σ^{2} = α^{2} + (1 - α)^{2}

$\sigma^2 = \alpha^2 + (1-\alpha)^2$

Essas duas distribuições são muito diferentes, embora tenham a mesma média. Isso não é um acidente e decorre da linearidade das expectativas.

Para entender a distribuição da mistura, imagine que você teve que procurar um consultor estatístico para que ela pudesse produzir valores dessa distribuição para você. Ela possui uma realização de em uma palma e uma realização de na outra palma (embora você não saiba em qual das duas palmas cada uma está). Agora, sua assistente lança uma moeda tendenciosa com probabilidade fora de vista e depois sussurra o resultado no ouvido do estatístico. Ela abre uma das palmas e mostra a realização, mas não informa o resultado do lançamento da moeda. Este processo produz a distribuição da mistura. $X_1$ $X_2$ $\alpha$

Por outro lado, a combinação linear pode ser entendida no mesmo contexto. O consultor estatístico apenas pega as duas realizações, multiplica a primeira por e a segunda por , adiciona o resultado e mostra a você. $\alpha$ $(1-\alpha)$

— cardeal
fonte

Obrigado pela sua resposta. Portanto, meu problema está na (como calculei) a distribuição do ponto médio. Por favor, desculpe minha ignorância se estiver fazendo uma pergunta óbvia, mas como a distribuição do ponto médio é diferente da soma das variáveis aleatórias normalmente distribuídas ? É porque estamos em um caso bi-variável?

— Jorges

2

@jorges A soma será normal e, portanto, simétrica em relação a um único modo. Quando os dois meios estão suficientemente afastados (em comparação com os seus DS), a distribuição da mistura é bimodal . Em nenhuma circunstância a mistura é normal, exceto nos casos degenerados (médias iguais e DPs iguais). Isso também é aparente na fórmula para : essa média de exponenciais não pode ser escrita como exponencial de uma forma quadrática.

φ_{m}

$\varphi_m$

— whuber

@ whuber e cardeal: Embora intuitivamente eu entenda o que você diz, pareço estar tendo um problema sério com conceitos. Não sou realmente estatístico e acho que estou misturando "soma de variáveis aleatórias" com "distribuição de mistura". Na verdade, não estou contestando o que o cardeal e você respondeu, mas tentando entender a diferença e quando usá-la, pois eu posso estar cometendo erros semelhantes em outros lugares. Vou voltar a ler e ver se consigo me esclarecer. Obrigado por suas respostas.

— Jorges

2

A resposta do cardeal está correta. Você está tentando obter uma solução de forma fechada para a divergência Jensen-Shannon de dois gaussianos; não existe tal solução.

No entanto, você pode calcular Jensen-Shannon com precisão arbitrária usando a amostragem de Monte Carlo. O que você precisa é de uma maneira de calcular e, por extensão, . A divergência Kullback-Leibler é definida como: $KLD(P|M)$ $KLD(Q|M)$

K L D (P | M) = \int P (x) l o g (\frac{P (x)}{M (x)}) d x

$KLD(P|M) = \int P(x) log\big(\frac{P(x)}{M(x)}\big) dx$

A aproximação de Monte Carlo disso é:

K L D_{a p p r o x} (P | M) = \frac{1}{n} \sum_{i}^{n} l o g (\frac{P (x_{i})}{M (x_{i})})

$KLD_{approx}(P|M) = \frac{1}{n} \sum^n_i log\big(\frac{P(x_i)}{M(x_i)}\big)$

onde o foi amostrado de , o que é fácil, pois é um gaussiano no seu caso. Como , . pode ser calculado como . $x_i$ $P(x)$ $n \to \infty$ $KLD_{approx}(P|M) \to KLD(P|M)$ $M(x_i)$ $M(x_i) = \frac{1}{2}P(x_i) + \frac{1}{2}Q(x_i)$

— FrankD
fonte

HI @FrankD - Tentei implementar sua sugestão aqui: stats.stackexchange.com/questions/345915/… embora eu não ache exatamente o que você quis dizer. Ponteiros são bem-vindos.

— Astrid