Aplicando inferência variacional estocástica à Mistura Bayesiana de Gaussiana

Estou tentando implementar o modelo de Mistura Gaussiana com inferência variacional estocástica, seguindo este artigo .

Este é o pgm da mistura gaussiana.

De acordo com o artigo, o algoritmo completo de inferência variacional estocástica é:

E ainda estou muito confuso sobre o método para escalá-lo para GMM.

Primeiro, pensei que o parâmetro variacional local é apenas e outros são parâmetros globais. Por favor, corrija-me se eu estiver errado. O que significa o passo 6 ? O que devo fazer para conseguir isso? $q_z$ as though Xi is replicated by N times

Você poderia por favor me ajudar com isso? Desde já, obrigado!

— user5779223
fonte

Está dizendo que, em vez de usar todo o conjunto de dados, experimente um ponto de dados e finja que você tem de mesmo tamanho. Em muitos casos, este será equivalente a multiplicar a expectativa, com um ponto de dados por .

N

$N$

N

$N$

— Daeyoung Lim

@DaeyoungLim Obrigado pela sua resposta! Entendi o que você quer dizer agora, mas ainda estou confuso sobre quais estatísticas devem ser atualizadas localmente e quais devem ser atualizadas globalmente. Por exemplo, aqui está uma implementação da mistura de gaussiana, você poderia me dizer como escalá-lo para svi? Estou um pouco perdido. Muito obrigado!

— user5779223

Eu não li o código inteiro, mas se você estiver lidando com um modelo de mistura gaussiano, as variáveis indicadoras do componente de mistura devem ser as variáveis locais, pois cada uma delas está associada a apenas uma observação. Portanto, as variáveis latentes do componente de mistura que seguem a distribuição Multinoulli (também conhecida como distribuição categórica no ML) são na sua descrição acima.

z_{i}, i = 1, \dots, N

$z_{i}, \; i=1,\ldots,N$

— Daeyoung Lim

@DaeyoungLim Sim, eu entendo o que você disse até agora. Portanto, para a distribuição variacional q (Z) q (\ pi, \ mu, \ lambda), q (Z) deve ser variável local. Mas existem muitos parâmetros associados a q (Z). Por outro lado, também existem muitos parâmetros associados a q (\ pi, \ mu, \ lambda). E não sei como atualizá-los adequadamente.

— user5779223

Você deve usar a suposição de campo médio para obter as distribuições variacionais ideais para os parâmetros variacionais. Aqui está uma referência: maths.usyd.edu.au/u/jormerod/JTOpapers/Ormerod10.pdf

— Daeyoung Lim

Respostas:

Este tutorial ( https://chrisdxie.files.wordpress.com/2016/06/in-depth-variational-inference-tutorial.pdf ) responde à maioria de suas perguntas e provavelmente seria mais fácil de entender do que o artigo original da SVI, como Ele analisa especificamente todos os detalhes da implementação de SVI (e coordena a amostragem de subida VI e gibbs) para um modelo de mistura gaussiana (com variação conhecida).

— aleshing
fonte

Primeiro, algumas notas que me ajudam a entender o artigo sobre SVI:

Ao calcular o valor intermediário para o parâmetro variacional dos parâmetros globais, amostramos um ponto de dados e fingimos que todo o conjunto de dados de tamanho era aquele único ponto, vezes. $N$ $N$
$\eta_g$ é o parâmetro natural para o condicional completo da variável global . A notação é usada para enfatizar que é uma função das variáveis condicionadas, incluindo os dados observados. $\beta$

$k$ $\mu_k, \tau_k$ $\eta_g$

μ, τ \sim N (μ | γ, τ (2 α - 1) G a (τ | α, β)

$\mu, \tau \sim N(\mu|\gamma, \tau(2\alpha -1)Ga(\tau|\alpha, \beta)$

$\eta_0 = 2\alpha - 1$ $\eta_1 = \gamma*(2\alpha -1)$ $\eta_2 = 2\beta+\gamma^2(2\alpha-1)$ $a, b, m$ $\alpha, \beta, \mu$

$\mu_k, \tau_k$ $\dot\eta + \langle\sum_Nz_{n,k}$ $\sum_N z_{n,k}x_N$ $\sum_Nz_{n,k}x^2_{n}\rangle$ $\dot\eta$ $z_{n,k}$ $\exp\ln(p))$ $\prod_N p(x_n|z_n, \alpha, \beta, \gamma) = \prod_N\prod_K\big(p(x_n|\alpha_k,\beta_k,\gamma_k)\big)^{z_{n,k}}$

Com isso, podemos concluir a etapa (5) do pseudocódigo SVI com:

ϕ_{n, k} \propto \exp (l n (π) + E_{q} \ln (p (x_{n} | α_{k}, β_{k}, γ_{k})) = \exp (\ln (π) + E_{q} [⟨ μ_{k} τ_{k}, \frac{- τ}{2} ⟩ \cdot ⟨ x, x^{2} ⟩ - \frac{μ^{2} τ - \ln τ}{2})]

$\phi_{n,k} \propto \exp (ln(\pi) + \mathbb E_q \ln(p(x_n|\alpha_k, \beta_k, \gamma_k))\\ =\exp(\ln(\pi) + \mathbb E_q \big[\langle \mu_k\tau_k, \frac{-\tau}{2} \rangle \cdot\langle x, x^2\rangle - \frac{\mu^2\tau - \ln \tau}{2})\big]$

A atualização dos parâmetros globais é mais fácil, pois cada parâmetro corresponde a uma contagem dos dados ou a uma de suas estatísticas suficientes:

\hat{λ} = \dot{η} + N ϕ_{n} ⟨ 1, x, x^{2} ⟩

$\hat \lambda = \dot \eta + N\phi_n \langle 1, x, x^2 \rangle$

$0$ $a, b, m$ $\alpha, \beta, \mu$

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
Created on Sun Aug 12 12:49:15 2018

@author: SeanEaster
"""

import numpy as np
from matplotlib import pylab as plt
from scipy.stats import t
from scipy.special import digamma 

# These are priors for mu, alpha and beta

def calc_rho(t, delay=16,forgetting=1.):
    return np.power(t + delay, -forgetting)

m_prior, alpha_prior, beta_prior = 0., 1., 1.
eta_0 = 2 * alpha_prior - 1
eta_1 = m_prior * (2 * alpha_prior - 1)
eta_2 = 2 *  beta_prior + np.power(m_prior, 2.) * (2 * alpha_prior - 1)

k = 3

eta_shape = (k,3)
eta_prior = np.ones(eta_shape)
eta_prior[:,0] = eta_0
eta_prior[:,1] = eta_1
eta_prior[:,2] = eta_2

np.random.seed(123) 
size = 1000
dummy_data = np.concatenate((
        np.random.normal(-1., scale=.25, size=size),
        np.random.normal(0.,  scale=.25,size=size),
        np.random.normal(1., scale=.25, size=size)
        ))
N = len(dummy_data)
S = 1

# randomly init global params
alpha = np.random.gamma(3., scale=1./3., size=k)
m = np.random.normal(scale=1, size=k)
beta = np.random.gamma(3., scale=1./3., size=k)

eta = np.zeros(eta_shape)
eta[:,0] = 2 * alpha - 1
eta[:,1] = m * eta[:,0]
eta[:,2] = 2. * beta + np.power(m, 2.) * eta[:,0]


phi = np.random.dirichlet(np.ones(k) / k, size = dummy_data.shape[0])

nrows, ncols = 4, 5
total_plots = nrows * ncols
total_iters = np.power(2, total_plots - 1)
iter_idx = 0

x = np.linspace(dummy_data.min(), dummy_data.max(), num=200)

while iter_idx < total_iters:

    if np.log2(iter_idx + 1) % 1 == 0:

        alpha = 0.5 * (eta[:,0] + 1)
        beta = 0.5 * (eta[:,2] - np.power(eta[:,1], 2.) / eta[:,0])
        m = eta[:,1] / eta[:,0]
        idx = int(np.log2(iter_idx + 1)) + 1

        f = plt.subplot(nrows, ncols, idx)
        s = np.zeros(x.shape)
        for _ in range(k):
            y = t.pdf(x, alpha[_], m[_], 2 * beta[_] / (2 * alpha[_] - 1))
            s += y
            plt.plot(x, y)
        plt.plot(x, s)
        f.axes.get_xaxis().set_visible(False)
        f.axes.get_yaxis().set_visible(False)

    # randomly sample data point, update parameters
    interm_eta = np.zeros(eta_shape)
    for _ in range(S):
        datum = np.random.choice(dummy_data, 1)

        # mean params for ease of calculating expectations
        alpha = 0.5 * ( eta[:,0] + 1)
        beta = 0.5 * (eta[:,2] - np.power(eta[:,1], 2) / eta[:,0])
        m = eta[:,1] / eta[:,0]

        exp_mu = m
        exp_tau = alpha / beta 
        exp_tau_m_sq = 1. / (2 * alpha - 1) + np.power(m, 2.) * alpha / beta
        exp_log_tau = digamma(alpha) - np.log(beta)


        like_term = datum * (exp_mu * exp_tau) - np.power(datum, 2.) * exp_tau / 2 \
            - (0.5 * exp_tau_m_sq - 0.5 * exp_log_tau)
        log_phi = np.log(1. / k) + like_term
        phi = np.exp(log_phi)
        phi = phi / phi.sum()

        interm_eta[:, 0] += phi
        interm_eta[:, 1] += phi * datum
        interm_eta[:, 2] += phi * np.power(datum, 2.)

    interm_eta = interm_eta * N / S
    interm_eta += eta_prior

    rho = calc_rho(iter_idx + 1)

    eta = (1 - rho) * eta + rho * interm_eta

    iter_idx += 1

— Sean Easter
fonte