O que é amostragem importante?

Estou tentando aprender um aprendizado reforçado e esse tópico é realmente confuso para mim. Fiz uma introdução às estatísticas, mas simplesmente não conseguia entender esse tópico intuitivamente.

— Tienanh Nguyen
fonte

Respostas:

A amostragem por importância é uma forma de amostragem de uma distribuição diferente da distribuição de interesse , para obter mais facilmente estimativas melhores de um parâmetro a partir da distribuição de interesse. Normalmente, isso fornecerá estimativas do parâmetro com uma variação menor do que seria obtido por amostragem diretamente da distribuição original com o mesmo tamanho de amostra.

É aplicado em vários contextos. Em geral, a amostragem de diferentes distribuições permite que mais amostras sejam coletadas em uma parte da distribuição de interesse ditada pela aplicação (região importante).

Um exemplo pode ser que você deseja ter uma amostra que inclua mais amostras das caudas da distribuição do que a amostra aleatória pura da distribuição de interesse forneceria.

O artigo da wikipedia que eu vi sobre esse assunto é muito abstrato. É melhor olhar para vários exemplos específicos. No entanto, inclui links para aplicativos interessantes, como as redes bayesianas.

Um exemplo de amostragem importante nas décadas de 1940 e 1950 é uma técnica de redução de variância (uma forma do método de Monte Carlo). Veja, por exemplo, o livro Monte Carlo Methods, de Hammersley e Handscomb, publicado como Methuen Monograph / Chapman and Hall em 1964 e reimpresso em 1966 e posteriormente por outros editores. A seção 5.4 do livro aborda Amostragem de importância.

— Michael R. Chernick
fonte

Para acrescentar a isto: Em RL você está geralmente à amostragem importância para a política: por exemplo, amostragem ações de uma política de exploração em vez da política real que você realmente quer da amostra

— DaVinci

Essa resposta começa bem explicando a importância da amostragem , mas fiquei desapontado ao descobrir que ela nunca responde à pergunta sobre o que é a amostragem de importância : como funciona?

— whuber

@whuber Meu objetivo aqui era explicar o conceito para um OP confuso e apontá-lo para alguma literatura. É um tópico importante e é usado em aplicativos aparentemente diferentes. Outros podem explicar melhor os detalhes em termos simples do que eu. Eu sei que quando você decide responder uma pergunta, você fica louco e fornece bons gráficos, passa por detalhes técnicos em linguagem simples. Esses posts quase sempre satisfazem a comunidade com sua clareza e abrangência e, ouso dizer, também satisfaz o OP pelo menos em parte. Talvez algumas frases com equações sejam suficientes, como você sugere.

— Michael R. Chernick 3/17/17

Talvez seja melhor para a comunidade responder à pergunta em vez de apenas apontar para outras fontes ou até fornecer links. Apenas senti que o que fiz foi adequado e o OP que admite ser um novato em estatística deve se esforçar primeiro.

— Michael R. Chernick

Você tem um ponto. Eu me pergunto, no entanto, se seria possível em apenas uma ou duas frases - sem matemática, sem gráficos, quase nenhum trabalho extra - fornecer uma resposta para a pergunta, conforme solicitado. Nesse caso, a descrição precisaria enfatizar que se está estimando a expectativa (não apenas qualquer "parâmetro"), e talvez apontar que, como a expectativa soma um produto de valores e probabilidades, obtém-se o mesmo resultado alterando as probabilidades ( àquelas de uma distribuição fácil de amostrar) e ajustando os valores para compensar isso.

— whuber

A amostragem por importância é um método de simulação ou Monte Carlo destinado à aproximação de integrais. O termo "amostragem" é um tanto confuso, pois não pretende fornecer amostras de uma determinada distribuição.

A intuição por trás da amostragem de importância é que uma integral bem definida, como pode ser expresso como uma expectativa para uma ampla gama de distribuições de probabilidade:

I = \int_{X} h (x) d x

$\mathfrak{I}=\int_\mathfrak{X} h(x)\,\text{d}x$

onde

denota a densidade de uma distribuição de probabilidade e

é determinado por

. (Observe que geralmente é diferente de .)De fato, a escolha

I = E_{f} [H (X)] = \int_{X} H (x) f (x) d x

$\mathfrak{I}=\mathbb{E}_f[H(X)]=\int_\mathfrak{X} H(x)f(x)\,\text{d}x$

f

$f$

H

$H$

h

$h$

f

$f$ $H(\cdot)$ $h(\cdot)$

leva às igualidades

sob algumas restrições no suporte de

, ou seja,

quando

H (x) = \frac{h (x)}{f (x)}

$H(x)=\dfrac{h(x)}{f(x)}$

H (x) f (x) = h (x)

$H(x)f(x)=h(x)$

I = E_{f} [H (X)]

$\mathfrak{I}=\mathbb{E}_f[H(X)]$

-

$-$

f

$f$

f (x) > 0

$f(x)>0$

h (x) \neq 0

$h(x)\ne 0$

-

$-$ . Portanto, como apontado por W. Huber em seu comentário, não há unicidade na representação de uma integral como expectativa, mas, ao contrário, uma matriz infinita de tais representações, algumas das quais são melhores que outras, uma vez que um critério para comparar eles é adotado. Por exemplo, Michael Chernick menciona a escolha de

para reduzir a variação do estimador.

f

$f$

Uma vez que essa propriedade elementar é entendida, a implementação da idéia é confiar na Lei dos Grandes Números, como em outros métodos de Monte Carlo, ou seja, simular [por meio de um gerador pseudo-aleatório] uma amostra de iid distribuído a partir de e para usar a aproximação $(x_1,\ldots,x_n)$ $f$ que

\hat{I} = \frac{1}{n} \sum_{i = 1}^{n} H (x_{i})

$\hat{\mathfrak{I}}=\frac{1}{n} \sum_{i=1}^n H(x_i)$

é um estimador imparcial de $\mathfrak{I}$
converge quase certamente para $\mathfrak{I}$

Dependendo da escolha da distribuição , o estimador acima pode ou não ter uma variância finita. No entanto, sempre existem opções de que permitem uma variação finita e até mesmo uma variação arbitrariamente pequena (embora essas escolhas possam estar indisponíveis na prática). E também existem opções de que fazem a amostragem importância estimador muito pobre aproximação das . Isso inclui todas as opções em que a variação fica infinita, embora um artigo recente de Chatterjee e Diaconis estude como comparar amostradores de importância com variação infinita. A foto abaixo é tirada de $f$ $\hat{\mathfrak{I}}$ $f$ $f$ $\hat{\mathfrak{I}}$ ${\mathfrak{I}}$ minha discussão do artigo no blog e ilustra a fraca convergência de estimadores de variância infinita.

Amostragem de importância com distribuição de importância, distribuição de destino Exp (1), distribuição de Exp (1/10) e função de interesse . O verdadeiro valor da integral é . $h(x)=x$ $10$

[O texto a seguir é reproduzido em nosso livro Monte Carlo Statistical Methods .]

O exemplo a seguir de Ripley (1987) mostra por que realmente pode ser pago para gerar a partir de uma distribuição diferente da distribuição (original) aparece na integral $f$ de interesse ou, em outras palavras, modificar a representação de uma integral como uma expectativa em relação a uma dada densidade.

\int_{X} h (x) f (x) d x

$\int_\mathfrak{X} h(x) f(x)\,\text{d}x$

Exemplo (probabilidade da cauda de Cauchy) Suponha que a quantidade de interesse seja a probabilidade, , que uma variável Cauchy seja maior que , ou seja, $p$ ${\mathcal{C}}(0,1)$ $2$ Quando é avaliada através da média empírica

p = \int_{2}^{+ \infty} \frac{1}{π (1 + x^{2})} d x .

$p = \int_2^{+\infty} \; {1\over \pi(1 + x^2)} \; \text{d}x \;.$

p

$p$

de uma amostra iid

{\hat{p}}_{1} = \frac{1}{m} \sum_{j = 1}^{m} I_{X_{j} > 2}

${\hat{p}}_1 = {1\over m} \; \sum_{j=1}^m \; \mathbb{I}_{X_{j} > 2}$

X_{1}, \dots, X_{m}

$X_1,\ldots,X_m$

\sim

$\sim$

, a variância desse estimador é

(igual a

pois

C (0, 1)

$\; \mathcal{C}(0,1)$

p (1 - p) / m

$p(1-p)/m$

0.127 / m

$0.127/m$

p = 0.15

$p=0.15$

Esta variação pode ser reduzido tendo em conta a natureza simétrica de , uma vez que a média ${\mathcal{C}}(0,1)$

{\hat{p}}_{2} = \frac{1}{2 m} \sum_{j = 1}^{m} I_{| X_{j} | > 2}

${\hat{p}}_2 = {1\over 2m} \; \sum_{j=1}^m \; \mathbb{I}_{|X_{j}| > 2}$

p (1 - 2 p) / 2 m

$p(1-2p)/2m$

0.052 / m

$0.052/m$

$[2,+\infty)$ $p$ $p$

p = \frac{1}{2} - \int_{0}^{2} \frac{1}{π (1 + x^{2})} d x,

$p = {1\over 2} - \int_0^2 \; {1\over \pi(1 + x^2)} \; \text{d}x \;,$

h (X) = 2 / π (1 + X^{2})

$h(X) = 2/\pi(1 + X^2)$

X \sim U_{[0, 2]}

$X \sim {\mathcal{U}}_{[0, 2]}$ . An alternative method of evaluation for

p

$p$ is therefore

{\hat{p}}_{3} = \frac{1}{2} - \frac{1}{m} \sum_{j = 1}^{m} h (U_{j})

${\hat{p}}_3 = {1\over 2} - {1\over m} \; \sum_{j=1}^m \; h(U_j)$ for

U_{j} \sim U_{[0, 2]}

$U_j \sim {\mathcal{U}}_{[0,2]}$ . The variance of

{\hat{p}}_{3}

${\hat{p}}_3$ is

(E [h^{2}] - E [h]^{2}) / m

$(\mathbb{E}[h^2] - \mathbb{E}[h]^2)/m$ and an integration by parts shows that it is equal to

0.0285 / m

$0.0285/m$ . Moreover, since

p

$p$ can be written as

p = \int_{0}^{1 / 2} \frac{y^{- 2}}{π (1 + y^{- 2})} d y,

$p = \int_0^{1/2} \; {y^{-2}\over \pi(1 + y^{-2})} \; \text{d}y \;,$ this integral can also be seen as the expectation of

\frac{1}{4} h (Y) = 1 / 2 π (1 + Y^{2})

${1\over 4} \; h(Y) = 1/2\pi(1 + Y^2)$ against the uniform distribution on

[0, 1 / 2]

$[0,1/2]$ and another evaluation of

p

$p$ is

{\hat{p}}_{4} = \frac{1}{4 m} \sum_{j = 1}^{m} h (Y_{j})

${\hat{p}}_4 = {1\over 4 m} \; \sum_{j=1}^m \; h(Y_j)$ when

Y_{j} \sim U_{[0, 1 / 2]}

$Y_j \sim {\mathcal{U}}_{[0,1/2]}$ . The same integration by parts shows that the variance of

{\hat{p}}_{4}

${\hat{p}}_{4}$ is then

0.95 10^{- 4} / m

$0.95 \; 10^{-4}/m$ .

Compared with ${\hat{p}}_1$ , the reduction in variance brought by ${\hat p}_4$ is of order $10^{-3}$ , which implies, in particular, that this evaluation requires $\sqrt{1000} \approx 32$ times fewer simulations than $\hat p_1$ to achieve the same precision. $\blacktriangleright$

— Xi'an
fonte

Thank you @Xi' an for going to the trouble of illustrating importance sampling in a way that everyone can appreciate and I think more than satisfies Bill Huber's request. +1

— Michael R. Chernick

I want to note that initially this post was put on hold and thanks to the contributions of several people. We have come up with an informative thread.

— Michael R. Chernick

Christian, I want to extend my thanks and express a feeling of privilege that you are actively sharing such excellent material with us.

— whuber

I just want to add a thank you to Xi'an who was kind enough to make a few edits to improve my answer even though he gave one of his own.

— Michael R. Chernick

This has to be one of the best posts on stats.stackexchange. Thanks for sharing!

— dohmatob