MCMC; Podemos ter certeza de que temos uma amostra '' pura '' e '' suficientemente grande '' da parte posterior? Como isso pode funcionar se não estivermos?

Referindo-se a este tópico: Como você explicaria o Markov Chain Monte Carlo (MCMC) a um leigo? .

Eu posso ver que é uma combinação de cadeias de Markov e Monte Carlo: uma cadeia de Markov é criada com a posterior como distribuição limitadora invariante e, em seguida, os sorteios de Monte Carlo (dependentes) são feitos a partir da distribuição limitadora (= nossa posterior).

Digamos (eu sei que estou simplificando aqui) que, após as etapas $L$ , estamos na distribuição limitadora $\Pi$ (*).

Como a cadeia de Markov é uma sequência de variáveis aleatórias, recebo uma sequência , em que é uma variável aleatória e é o limitador ' 'variável aleatória' 'da qual desejamos amostrar. $X_1, X_2, \dots , X_L, \Pi, \Pi, \Pi, \dots \Pi$ $X_i$ $\Pi$

O MCMC inicia com um valor inicial, ou seja, é uma variável aleatória com toda a massa nesse valor . Se eu usar letras maiúsculas para variáveis aleatórias e letras minúsculas para a realização de uma variável aleatória, o MCMC uma sequência . Portanto, o comprimento da cadeia MCMC é L + n. $X_1$ $x_1$ $x_1,x_2,x_3, \dots x_L, \pi_1, \pi_2, \pi_3, ....\pi_n$

[[* Nota: as letras maiúsculas são variáveis aleatórias (ou seja, um monte de resultados) e o pequeno são resultados, ou seja, um valor específico. *]] $x$

Obviamente, apenas o pertence ao meu '' posterior '' e, para aproximar o '' poço '' posterior, o valor de deve ser '' grande o suficiente ''. $\pi_i$ $n$

Se eu resumir isso, tenho uma cadeia MCMC de comprimento , apenas são relevantes para minha aproximação posterior, e deve ser grande o suficiente. $x_1,x_2,x_3, \dots x_L, \pi_1, \pi_2, \pi_3, ....\pi_n$ $N=L+n$ $\pi_1,\pi_2,\dots, \pi_n$ $n$

Se eu incluir alguns dos (ou seja, realizações antes que a distribuição invariante seja alcançada) no cálculo da aproximação do posterior, será "barulhento". $x_i$

Eu sei o comprimento da cadeia MCMC , mas sem o conhecimento do , ou seja, a etapa em que tenho certeza de colher amostras da distribuição limitadora, não posso ter certeza de que não incluí ruído, nem posso tenha certeza de , o tamanho da minha amostra da distribuição limitadora, em particular, não posso ter certeza se ela é '' grande o suficiente ''. $N=L+n$ $L$ $n=N-L$

Então, tanto quanto eu entendi, esse valor de é de importância crítica para a qualidade da aproximação do posterior (exclusão de ruído e uma grande amostra dele) $L$ .

Existem maneiras de encontrar uma estimativa razoável para quando aplico o MCMC? $L$

(*) Eu acho que, em geral, dependerá do valor inicial . $L$ $x_1$

mcmc

— Comunidade
fonte

TL DR; Você não pode estimar desde . Assim, a suposição simplificadora nunca pode ser verdadeiramente possível. (Talvez haja alguns casos em que esteja, mas não no mundo geral do MCMC). No entanto, você pode decidir o que tornará pequeno o viés inicial. $L$ $L = \infty$ $N$

Essencialmente, sua pergunta se resume a "como podemos estimar o tempo de queima?". A queima é o ato de jogar fora as amostras iniciais, porque a cadeia de Markov não convergiu. Existem muitos diagnósticos do MCMC que ajudam a estimar o tempo de "queima", você pode ver uma revisão deles aqui .

Existem duas escolas através de burn-in; o popular é usar um desses diagnósticos para decidir o que é e jogar fora as amostras , e na segunda escola, as primeiras amostras não devem importar, portanto, não se preocupe. Charlie Geyer tem um discurso retórico sobre o qual eu concordo. $L$ $L$ $L$

Agora, passo aos detalhes mais técnicos da sua pergunta.

Uma suposição simplificadora que você faz na sua pergunta é que, eventualmente (após etapas), o amostrador começará a desenhar a partir da distribuição limitadora. Portanto, suas amostras após as etapas são simples, embora correlacionadas. Isso é falso. A rigor, é . A cadeia de Markov nunca converge verdadeiramente para a distribuição limitadora em tempo finito. Portanto, estimar é quase inútil. $L$ $L$ $L$ $\infty$ $L$

Uma maneira diferente de fazer essa pergunta é: o que é tal que, após etapas, a cadeia de Markov esteja "próxima o suficiente" da distribuição limitadora. Essa é a pergunta que a maioria dos diagnósticos tenta responder. É cada vez mais consensual que os diagnósticos acima são geralmente extremamente liberais e podem diagnosticar "convergência" muito antes do que deveria. Aqui está um artigo que demonstra algumas das fraquezas do diagnóstico. $L$ $L$

O que acima pede aos usuários para fazer em vez disso é não se preocupe com , se preocupar com . Geralmente, os usuários não estão interessados na distribuição posterior completa, mas em uma quantidade específica. Frequentemente, essa quantidade é a média do posterior, ou qualquer outra função que possa ser anotada como uma expectativa. É aqui que a parte "Monte Carlo" do MCMC entra, pois Monte Carlo indica a estimativa de uma integral com a soma. Portanto, se é sua cadeia de Markov (observe como estou ignorando , já que é ), e queremos estimar a média posterior ( ), então $L$ $N$ $X_1, X_2, X_3, \dots, X_N$ $L$ $L$ $\infty$ $\theta$

{\bar{θ}}_{N} = \frac{1}{N} \sum_{i = 1}^{N} X_{i} .

$\bar{\theta}_N = \dfrac{1}{N} \sum_{i=1}^{N}X_i.$

A idéia é que, se for grande o suficiente, o viés inicial da amostra será insignificante. Obviamente, se o valor inicial estava pateticamente longe do espaço de alta probabilidade da distribuição limitadora, um usuário pode olhar e jogar fora as duas primeiras amostras. Isso é diferente de estimar , pois não é uma estimativa, mas um desrespeito às amostras claramente corrompidas. $N$ $L$

Agora, a questão é: qual deve ser o tamanho ? A resposta deve depender de quão bem queremos estimar . Se queremos uma ótima estimativa, queremos mais amostras, se uma estimativa razoável é suficiente, então podemos ficar bem com uma amostra menor. Isso também é exatamente o que acontece nos problemas estatísticos padrão. $N$ $\theta$

A maneira como quantificamos a "bondade" de uma estimativa é pensar "o que podemos dizer , do erro de Monte Carlo? Sob condições razoáveis, de fato existe uma cadeia de Markov CLT que diz como , para qualquer distribuição inicial $(\bar{\theta}_N - \theta)$ $N \to \infty$

\sqrt{N} ({\bar{θ}}_{N} - θ) \overset{d}{\to} N_{p} (0, Σ),

$\sqrt{N}(\bar{\theta}_N - \theta) \overset{d}{\to} N_p(0, \Sigma),$

onde e é a matriz de covariância assintótica. A chave aqui é que o resultado é verdadeiro para qualquer distribuição inicial. $\theta \in \mathbb{R}^p$ $\Sigma$

Quando é pequeno, sabemos que o estimador é bom. Este artigo apresenta essa idéia de parar, e minha resposta aqui resume seu método. Os resultados em seus trabalhos também são independentes da distribuição inicial do processo. $\Sigma/N$

— Greenparker
fonte

Thx pela resposta (+1) Eu sei que deve ser , eu disse explicitamente que estava simplificando. Quanto ao seu CLT, não deveria ser para a convergência na distribuição? e para o , isso é calculado após a queda dos valores de burn-in, porque se for após a queda deles, o problema permanece? (? Posso perguntar o que significa TL DR) Agradecimentos para o papel, eu lê-lo em detalhe

L

$L$

\infty

$\infty$

Σ / n

$\Sigma/n$

{\hat{θ}}_{N}

$\hat{\theta}_N$

Corrigido um erro, que deveria ter sido . é calculado a partir de todas as amostras, nada está sendo descartado. TL DR significa "muito tempo, não leu". Esqueci de acrescentar que o CLT vale para qualquer distribuição inicial. Vou acrescentar isso.

Σ / N

$\Sigma/N$

{\bar{θ}}_{N}

$\bar{\theta}_N$

— Greenparker

Tenho mais uma pergunta: no artigo de Flegal, Haran e Jones, MCMC: podemos apresentar o terceiro número significativo , abaixo da fórmula (3), diz que é assumido que . Isso significa que eu deveria levar em consideração a estimativa de ?

X_{1} \sim π

$X_1 \sim \pi$

{\bar{g}}_{n}

$\bar{g}_n$

@fcop Essa linha é apenas para descrever as expectativas. Não é assumido que , mas as expectativas são com relação a na fórmula.

X_{1} \sim π

$X_1 \sim \pi$

π

$\pi$

— Greenparker