Um método de amostragem de "importância Gibbs" funcionaria?

Suspeito que esta seja uma pergunta bastante incomum e exploratória, por isso, tenha paciência comigo.

Gostaria de saber se é possível aplicar a idéia de amostragem importante à amostragem de Gibbs. Aqui está o que quero dizer: na amostragem de Gibbs, alteramos o valor de uma variável (ou bloco de variáveis) de cada vez, amostrando a partir da probabilidade condicional, dadas as demais variáveis.

No entanto, pode não ser possível ou fácil amostrar a partir da probabilidade condicional exata. Então, em vez disso, coletamos amostras de uma distribuição de proposta e usamos, por exemplo, Metropolis-Hastings (MH). $q$

Por enquanto, tudo bem. Mas eis um caminho divergente: o que acontece se, em vez de usar o MH, usarmos a mesma idéia usada na amostragem de importância, ou seja, coletamos amostras de e mantemos um peso de importância da amostra atual? $q$ $p/q$

Mais detalhadamente: suponha que temos as variáveis e uma distribuição fatorada modo que . Mantemos a probabilidade da proposta usada para amostrar o valor atual de cada variável . Em cada etapa, alteramos um subconjunto das variáveis e atualizamos (apenas os fatores de e que são afetados). Tomamos as amostras e seu peso de importância para calcular qualquer estatística em que estamos interessados. $x_1,\dots,x_n$ $\phi_1,\dots,\phi_m$ $p \propto \prod_{i=1}^m \phi_i$ $q_i$ $x_i$ $p(x)/q(x)$ $p$ $q$

Esse algoritmo estaria correto? Caso contrário, existem razões claras por que não? Intuitivamente, faz sentido para mim, pois parece estar fazendo a mesma coisa que a amostragem de importância, mas com amostras dependentes.

Eu implementei isso para um modelo de caminhada aleatória gaussiana e observei que os pesos se tornam cada vez menores (mas não monotonicamente); portanto, as amostras iniciais acabam tendo muita importância e dominam a estatística. Tenho certeza de que a implementação não é de buggy, porque a cada passo eu comparo o peso atualizado com um cálculo explícito de força bruta. Observe que os pesos não diminuem indefinidamente para zero, porque são onde e são produtos de um número finito de densidades, e cada amostra é obtida de uma distribuição Normal que raramente será zero. $p/q$ $p$ $q$

Então, estou tentando entender por que os pesos caem dessa maneira e se isso é uma conseqüência do fato de esse método não estar realmente correto.

Aqui está uma definição mais precisa do algoritmo, aplicada a uma caminhada aleatória gaussiana nas variáveis . O código segue abaixo. $X_1,\dots,X_n$

O modelo é simplesmente , com fixo em . $X_i \sim \mathcal N(X_{i-1}, \sigma^2), i = 1,\dots,n$ $X_0$ $0$

O peso da amostra atual é , onde são as densidades gaussianas e são as distribuições das quais os valores atuais foram amostrados. Inicialmente, simplesmente amostramos os valores de maneira direta, então e o peso inicial é . $\frac{\prod_i p(x_i)}{\prod_i q(x_i)}$ $p$ $q$ $q = p$ $1$

Em cada etapa, eu escolho para alterar. Eu um novo valor para de , portanto essa densidade se torna a nova distribuição de proposta usada para . $j \in \{1,\dots,n\}$ $x'_j$ $X_j$ $\mathcal N(X_{j-1},\sigma^2)$ $X_j$

Para atualizar o peso, divido pelo densidades e de valor antigo de acordo com a e , e multiplicar pelo densidades e de novo valor de acordo com a e . Isso atualiza o numerador do peso. $p(x_j | x_{j-1})$ $p(x_{j+1} | x_j)$ $x_j$ $x_{j-1}$ $x_{j+1}$ $p(x'_j | x_{j-1})$ $p(x_{j+1} | x'_j)$ $x'_j$ $x_{j-1}$ $x_{j+1}$ $p$

Para atualizar o denominador , multiplico o peso pela proposta antiga (removendo-o do denominador) e divido-o por . $q$ $q(x_j)$ $q(x'_j)$

(Como eu do normal centrado em , é sempre igual a então eles são cancelados e a implementação não usá-los). $x'_j$ $x_{j-1}$ $q(x'_j)$ $p(x'_j | x_{j-1})$

Como mencionei antes, no código eu comparo esse cálculo de peso incremental com o cálculo explícito real apenas para ter certeza.

Aqui está o código para referência.

println("Original sample: " + currentSample);
int flippedVariablesIndex = 1 + getRandom().nextInt(getVariables().size() - 1);
println("Flipping: " + flippedVariablesIndex);
double oldValue = getValue(currentSample, flippedVariablesIndex);
NormalDistribution normalFromBack = getNormalDistribution(getValue(currentSample, flippedVariablesIndex - 1));
double previousP = normalFromBack.density(oldValue);
double newValue = normalFromBack.sample();
currentSample.set(getVariable(flippedVariablesIndex), newValue);
double previousQ = fromVariableToQ.get(getVariable(flippedVariablesIndex));
fromVariableToQ.put(getVariable(flippedVariablesIndex), normalFromBack.density(newValue));
if (flippedVariablesIndex < length - 1) {
    NormalDistribution normal = getNormalDistribution(getValue(currentSample, flippedVariablesIndex + 1));
    double oldForwardPotential = normal.density(oldValue);
    double newForwardPotential = normal.density(newValue);
    // println("Removing old forward potential " + oldForwardPotential);
    currentSample.removePotential(new DoublePotential(oldForwardPotential));
    // println("Multiplying new forward potential " + newForwardPotential);
    currentSample.updatePotential(new DoublePotential(newForwardPotential));
}

// println("Removing old backward potential " + previousP);
currentSample.removePotential(new DoublePotential(previousP));
// println("Multiplying (removing from divisor) old q " + previousQ);
currentSample.updatePotential(new DoublePotential(previousQ));

println("Final sample: " + currentSample);
println();

// check by comparison to brute force calculation of weight:
double productOfPs = 1.0;
for (int i = 1; i != length; i++) {
    productOfPs *= getNormalDistribution(getValue(currentSample, i - 1)).density(getValue(currentSample, i));
}
double productOfQs = Util.fold(fromVariableToQ.values(), (p1, p2) -> p1*p2, 1.0);
double weight = productOfPs/productOfQs;
if (Math.abs(weight - currentSample.getPotential().doubleValue()) > 0.0000001) {
    println("Error in weight calculation");
    System.exit(0);
}

mcmc gibbs importance-sampling

— user118967
fonte

A amostragem de importância não fornece amostras da distribuição de destino (neste caso, os condicionais completos de ). Portanto, a dinâmica do kernel de Markov que gera convergência do MCMC não se sustenta. Sem olhar para o seu código, eu não posso ver porque os pesos vão 0.

ϕ_{i}

$\phi_i$

— Greenparker

Obrigado. Acho que vou ter que me aprofundar nos teoremas da convergência do MCMC. Incluí o código por precaução, é bastante simples. Obrigado.

— user118967

Em vez de incluir o código bruto (ou além disso), você pode explicar como está implementando o algoritmo? Qual é a distribuição alvo, quais são as condicionais completas, o que é a distribuição proposta, como você está combinando os pesos, etc etc

— Greenparker

Obrigado. Eu fiz isso, por favor, deixe-me saber se isso é confuso em algum lugar.

— user118967

@ Xi'an: aqui, a amostragem de importância está sendo aplicada ao movimento de uma única variável. Em vez de aceitar a proposta ou não, como em Metropolis Hastings, sempre a aceitamos, mas mantemos uma medida de importância desse flip, dividindo a probabilidade p pela proposta q para a variável que está sendo invertida.

— user118967

Essa é uma ideia interessante, mas vejo várias dificuldades com ela:

ao contrário da amostragem de importância padrão, ou mesmo da amostragem de importância metropolitana, a proposta não está atuando no mesmo espaço que a distribuição de destino, mas em um espaço de menor dimensão, portanto a validação não é clara [e pode ser imposta a manter pesos nas iterações e, portanto, enfrentar a degeneração]
as constantes de normalização ausentes nos condicionais completos são alteradas a cada iteração, mas não são contabilizadas [veja abaixo]
os pesos não são limitados, pois ao longo das iterações, eventualmente haverá simulações com um peso muito grande, a menos que se mantenha o controle da última ocorrência de uma atualização para o mesmo índice , que pode colidir com a validação markoviana do amostrador Gibbs . A execução de um experimento modesto com e iterações mostra uma variedade de pesos de até . $j$ $n=2$ $T=10^3$ 7.656397e-073.699364e+04

Para entrar em mais detalhes, considere um alvo bidimensional , incluindo a constante de normalização adequada, e implemente a importância do amostrador de Gibbs com as propostas e . Pesos de importância corretos [no sentido de produzir a expectativa correta, isto é, um estimador imparcial, para uma função arbitrária de ] para simulações sucessivas são onde e são os marginais de . Ou equivalente $p(\cdot,\cdot)$ $q_X(\cdot|y)$ $q_Y(\cdot|x)$ $(X,Y)$

\frac{p (x_{t}, y_{t - 1})}{q_{X} (x_{t} | y_{t - 1}) m_{Y} (y_{t - 1})} or \frac{p (x_{t - 1}, y_{t})}{q_{Y} (y_{t} | x_{t - 1}) m_{X} (x_{t - 1})}

$\dfrac{p(x_t,y_{t-1})}{q_X(x_t|y_{t-1})m_Y(y_{t-1})}\qquad\text{or}\qquad\dfrac{p(x_{t-1},y_{t})}{q_Y(y_t|x_{t-1})m_X(x_{t-1})}$

m_{X} (\dots)

$m_X(\cdots)$

m_{Y} (\cdot)

$m_Y(\cdot)$

p (\cdot, \cdot)

$p(\cdot,\cdot)$

\frac{p_{X} (x_{t} | y_{t - 1})}{q_{X} (x_{t} | y_{t - 1})} or \frac{p_{Y} (y_{t} | x_{t - 1})}{q_{Y} (y_{t} | x_{t - 1})}

$\dfrac{p_X(x_t|y_{t-1})}{q_X(x_t|y_{t-1})}\qquad\text{or}\qquad\dfrac{p_Y(y_{t}|x_{t-1})}{q_Y(y_t|x_{t-1})}$ Nos dois casos, isso requer as densidades marginais [intratáveis] de e abaixo do destino .

X

$X$

Y

$Y$

p (\cdot, \cdot)

$p(\cdot,\cdot)$

Vale a pena comparar o que acontece aqui com o algoritmo Metropolis de importância paralela . (Veja, por exemplo, Schuster und Klebanov, 2018. ) Se o destino for novamente e a proposta for , a importância ponderada está correto [para produzir uma estimativa imparcial] e não atualiza o peso anterior, mas começa do zero a cada iteração. $p(\cdot,\cdot)$ $q(\cdot,\cdot|x,y)$

\frac{p (x^{'}, y^{'})}{q (x^{'}, y^{'} | x, y)}

$\dfrac{p(x',y')}{q(x',y'|x,y)}$

(C.) Uma correção para a importância original da proposta de Gibbs é propor um novo valor para todo o vetor, por exemplo, , da proposta de Gibbs , porque então o peso da importância está correto [faltando uma possível normalização constante que agora é verdadeiramente constante e não carrega das iterações anteriores de Gibbs] . $(x,y)$ $q_X(x_t|y_{t-1})q_Y(y_t|x_{t})$

\frac{p (x_{t}, y_{t})}{q_{X} (x_{t} | y_{t - 1}) q_{Y} (y_{t} | x_{t})}

$\dfrac{p(x_t,y_t)}{q_X(x_t|y_{t-1})q_Y(y_t|x_{t})}$

Uma observação final: para o destino de caminhada aleatória considerado no código, a simulação direta é possível em cascata: simule , depois com , etc. $X_1$ $X_2$ $X_1$

— Xi'an
fonte