Resultados nas estimativas de Monte Carlo produzidas por amostragem de importância

Eu tenho trabalhado bastante na amostragem de importância durante o ano passado e tenho algumas perguntas em aberto com as quais esperava obter ajuda.

Minha experiência prática com esquemas de amostragem de importância é que eles ocasionalmente podem produzir estimativas fantásticas de baixa variância e viés baixo. Mais frequentemente, no entanto, eles tendem a produzir estimativas de alto erro que têm baixa variação de amostra, mas um viés muito alto.

Gostaria de saber se alguém pode explicar exatamente que tipos de fatores afetam a validade das estimativas de amostragem importantes. Em particular, estou me perguntando:

1) As estimativas de amostragem de importância garantem convergir para o resultado correto quando a distribuição de polarização tem o mesmo suporte que a distribuição original? Se sim, por que isso parece demorar tanto na prática?

2) Existe uma relação quantificável entre o erro em uma estimativa produzida por amostragem de importância e a "qualidade" da distribuição de polarização (isto é, quanto corresponde à distribuição de variância zero)

3) Parcialmente baseado em 1) e 2) - existe uma maneira de quantificar 'quanto' você precisa saber sobre uma distribuição antes de usar melhor um projeto de amostragem importante do que um método simples de Monte Carlo.

monte-carlo information-theory importance-sampling

— Berk U.
fonte

Respostas:

A amostragem de importância tem exatamente a mesma validação que a abordagem básica de Monte Carlo. Na sua essência, é básico Monte Carlo . De fato, é simplesmente uma mudança na medida de referência, passando de para

\int h (x) f (x) d x

$\int h(x) f(x) \text{d}x$

Assim, a convergência é garantida pela lei de grandes números em ambos os casos, isto é, se você simula de

ou de

. Além disso, se o termo

\int h (x) \frac{f (x)}{g (x)} g (x) d x

$\int h(x) \dfrac{f(x)}{g(x)} g(x) \text{d}x$

f

$f$

g

$g$

é finito, o teorema do limite central também se aplica e a velocidade de convergência é

\int h^{2} (x) \frac{f^{2} (x)}{g (x)} d x

$\int h^2(x) \dfrac{f^2(x)}{g(x)} \text{d}x$

. Se "leva tanto tempo na prática", é porque o fator de variação acima no CLT pode ser bastante grande. Mas, e eu insisto, a velocidade é a mesma que em Monte Carlo normal,

O (1 / \sqrt{n})

$\text{O}(1/\sqrt{n})$

O (1 / \sqrt{n})

$\text{O}(1/\sqrt{n})$

A qualidade de uma distribuição amostral de importância está, portanto, diretamente relacionada ao fator de variância acima, que passa a zero na "distribuição de variância zero" proporcional a . $|h(x)|f(x)$

— Xi'an
fonte

Eu suspeito, dado que o OP está relatando pequenos estimadores de variação que são tendenciosos, mas parecem ter uma variação pequena, que ele pode estar perguntando sobre amostragem de importância auto-normalizada. Veja o discurso de Radford Neal no estimador de média harmônica para um bom exemplo, que leva o que seria uma estimativa de amostragem importante com variação 0 e retorna sem sentido. Não tenho certeza de que isso nunca ocorra em amostragens de importância regular, mas certamente é raro.

— deinst

Mesmo que essa não fosse a intenção do OP, eu estaria interessado em algumas dicas sobre como descobrir quando a auto-normalização dará terrivelmente errado.

— deinst

@deinst Eu não conhecia o procedimento de auto-normalização e suas armadilhas, então obrigado por isso! De qualquer forma, acho que os problemas podem ser relevantes para as propriedades do meu esquema de IS, então gostaria de explorar mais essa idéia, se algum de vocês tiver idéias.

— Berk U.

g (x)

$g(x)$

M

$M$

x_{1} . . x_{M}

$x_1..x_M$

g^{*} (x) = h (x) f (x) / \int h (x) f (x) d x

$g^*(x) = h(x)f(x)/\int{h(x)f(x)dx}$

x_{1} . . x_{M}

$x_1..x_M$

\hat{g (x)}

$\hat{g(x)}$

\hat{g (x)}

$\hat{g(x)}$

N

$N$

y_{1} . . . y_{N}

$y_1...y_N$

O uso de uma estimativa não paramétrica introduz variabilidade de ordem superior à variabilidade de Monte Carlo, portanto, eu não o aconselharia.

— Xi'an

$f$ $g$

δ = \int h (x) f (x) d x

$\delta=\int h(x)f(x)\text{d}x$

x_{1}, \dots, x_{n}

$x_1,\ldots,x_n$

g (x)

$g(x)$

\hat{δ} = \frac{\sum_{Eu = 1}^{n} h (x) f (x) / g (x)}{\sum_{Eu = 1}^{n} f (x) / g (x)} .

$\hat{\delta}=\frac{\sum_{i=1}^n h(x)f(x)/g(x)}{\sum_{i=1}^n f(x)/g(x)}.$

X / Y

$X/Y$

ω (X) = f (x) / g (X)

$\omega(X)=f(x)/g(X)$

E_{g} (\hat{δ}) \approx δ + \frac{δ {Var}_{g} (ω (X)) - {Cov}_{g} (ω (X), h (X) ω (X))}{n}

$E_g(\hat{\delta})\approx \delta + \frac{\delta \text{Var}_g(\omega(X))-\text{Cov}_g(\omega(X),h(X)\omega(X))}{n}$

{Var}_{g} (\hat{δ}) \approx \frac{{Var}_{g} (h (X) ω (X)) - 2 δ {Cov}_{g} (ω (X), h (X) ω (X)) + δ^{2} {Var}_{g} (ω (X))}{n} .

$\text{Var}_g(\hat{\delta})\approx\frac{\text{Var}_g(h(X)\omega(X))-2\delta\text{Cov}_g(\omega(X),h(X)\omega(X))+\delta^2\text{Var}_g(\omega(X))}{n}.$

$\text{Var}_g(\omega(X))$ $\text{Cov}_g(\omega(X),h(X)\omega(X))$

— deinst
fonte

Thank you for this. I'm just a little unsure about the notation / not sure if there is a typo. To clarify, what exactly are

X / Y

$X/Y$ and

G

$G$ in your explanation?

— Berk U.

@BerkUstun The capital G is a typo for a small that I will fix promptly. X/Y is just a generic ratio of random variables. IIRC all this is explained in Liu's Monte Carlo book (something with scientific in the title.)

— deinst

@deinst: Great point! Indeed, the properties of the self-normalised versions are quite different from those of the unbiased importance sampling estimator. In theory, one would need a separate importance sampler to estimate the denominator.

— Xi'an