Atualizando um fator Bayes

Um fator Bayes é definido no teste bayesiano de hipóteses e na seleção do modelo bayesiano pela razão de duas probabilidades marginais: dada uma amostra iid e respectivas densidades amostrais e , com as anteriores correspondentes e , o fator Bayes para comparar os dois modelos é Um livro que estou revisando atualmente tem a estranha afirmação de que o fator Bayes acima $(x_1,\ldots,x_n)$ $f_1(x|\theta)$ $f_2(x|\eta)$ $\pi_1$ $\pi_2$

B_{12} (x_{1 1}, \dots, x_{n}) \overset{def}{=} \frac{m_{1 1} (x_{1 1}, \dots, x_{n})}{m_{2} (x_{1 1}, \dots, x_{n})} \overset{def}{=} \frac{\int \prod_{Eu = 1 1}^{n} f_{1 1} (x_{Eu} | θ) π_{1 1} (d θ)}{\int \prod_{Eu = 1 1}^{n} f_{2} (x_{Eu} | η) π_{2} (d η)}

$\mathfrak{B}_{12}(x_1,\ldots,x_n)\stackrel{\text{def}}{=}\frac{m_1(x_1,\ldots,x_n)}{m_2(x_1,\ldots,x_n)}\stackrel{\text{def}}{=}\frac{\int \prod_{i=1}^n f_1(x_i|\theta)\pi_1(\text{d}\theta)}{\int \prod_{i=1}^n f_2(x_i|\eta)\pi_2(\text{d}\eta)}$

B_{12} (x_{1}, \dots, x_{n})

$\mathfrak{B}_{12}(x_1,\ldots,x_n)$ é "formado pela multiplicação dos fatores individuais [fatores de Bayes] juntos" (p.118). Isso está formalmente correto se alguém usar a decomposição mas não vejo vantagem computacional nessa decomposição como a atualização por

requer o mesmo esforço computacional que o cálculo original de

\begin{aligned} B_{12} (x_{1 1}, \dots, x_{n}) & = \frac{m_{1 1} (x_{1 1}, \dots, x_{n})}{m_{2} (x_{1 1}, \dots, x_{n})} \\ = \frac{m_{1 1} (x_{n} | x_{1 1}, \dots, x_{n - 1 1})}{m_{2} (x_{n} | x_{1 1}, \dots, x_{n - 1 1})} \times \frac{m_{1 1} (x_{n - 1 1} | x_{n - 2}, \dots, x_{1 1})}{m_{2} (x_{n - 1 1} | x_{n - 2}, \dots, x_{1 1})} \times \dots \\ \dots \times \frac{m_{1 1} (x_{1 1})}{m_{2} (x_{1 1})} \end{aligned}

$\begin{align*}\mathfrak{B}_{12}(x_1,\ldots,x_n)&=\frac{m_1(x_1,\ldots,x_n)}{m_2(x_1,\ldots,x_n)}\\&=\frac{m_1(x_n|x_1,\ldots,x_{n-1})}{m_2(x_n|x_1,\ldots,x_{n-1})}\times \frac{m_1(x_{n-1}|x_{n-2},\ldots,x_1)}{m_2(x_{n-1}|x_{n-2},\ldots,x_1)}\times\cdots\\&\qquad\cdots\times\frac{m_1(x_1)}{m_2(x_1)}\end{align*}$

\frac{m_{1 1} (x_{n} | x_{1 1}, \dots, x_{n - 1 1})}{m_{2} (x_{n} | x_{1 1}, \dots, x_{n - 1 1})}

$\frac{m_1(x_n|x_1,\ldots,x_{n-1})}{m_2(x_n|x_1,\ldots,x_{n-1})}$

\frac{m_{1 1} (x_{1 1}, \dots, x_{n})}{m_{2} (x_{1 1}, \dots, x_{n})}

$\frac{m_1(x_1,\ldots,x_n)}{m_2(x_1,\ldots,x_n)}$ exemplos de brinquedos artificiais externos.

Pergunta: Existe uma maneira genérica e computacionalmente eficiente de atualizar o fator Bayes de $\mathfrak{B}_{12}(x_1,\ldots,x_n)$ para $\mathfrak{B}_{12}(x_1,\ldots,x_{n+1})$ que não exige a recálculo de todos os marginais $m_1(x_1,\ldots,x_n)$ e $m_2(x_1,\ldots,x_n)$ ?

Minha intuição é que, além dos filtros de partículas, que de fato procedem ao estimar os fatores de Bayes $\mathfrak{B}_{12}(x_1,\ldots,x_n)$ uma nova observação de cada vez, não há uma maneira natural de responder a essa pergunta .

— Xi'an
fonte

Não me parece claro que a redação implique necessariamente fatoração seqüencial , pois as observações são iid. Durante a pós-graduação, um professor mencionou que o produto implica que se poderia usar aproximações assintóticas para análises bayesianas, mas estranhamente isso não ocorreu (sarcasmo). Talvez o livro possa estar sugerindo isso?

— Cliff AB

@CliffAB: Sim, você pode reescrever a probabilidade como uma média de termos individuais, convergindo para uma distância Kullback-Leibler da verdadeira distribuição. Mas não acho que seja esse o caso, mesmo que o livro não seja claro o suficiente para manter todas as opções em aberto.

— Xian

Acredito que exista um erro de digitação na segunda equação exibida: deve ser no segundo fator na segunda linha?

m_{1} (x_{n - 1} | x_{n - 1}, \dots, x_{1})

$m_1(x_{n-1}|x_{n-1}, \ldots, x_1)$

— Jochen

Presumivelmente, o objetivo de uma equação recursiva para o fator Bayes seria quando você já calculou o fator Bayes para pontos de dados e deseja poder atualizá-lo com um ponto de dados adicional. Parece que é possível fazer isso sem recalcular os marginais do vetor de dados anterior, desde que a forma da função posterior seja conhecida. Supondo que conheçamos a forma dessa função (e assumindo dados de IID como na sua pergunta), a densidade preditiva pode ser escrita como: $n$ $\pi_n$

\begin{aligned} m (x_{n + 1 1} | x_{1 1}, . . ., x_{n}) & = \int_{Θ} f (x_{n + 1 1} | θ) π_{n} (d θ | x_{1 1}, . . ., x_{n}) . \end{aligned}

$\begin{equation} \begin{aligned} m(x_{n+1} | x_1,...,x_n) &= \int \limits_\Theta f(x_{n+1}|\theta) \pi_n(d \theta | x_1,...,x_n). \\[6pt] \end{aligned} \end{equation}$

Portanto, você tem:

\begin{aligned} m (x_{1 1}, . . ., x_{n + 1 1}) & = m (x_{1 1}, . . ., x_{n}) \int_{Θ} f (x_{n + 1 1} | θ) π_{n} (d θ | x_{1 1}, . . ., x_{n}) . \end{aligned}

$\begin{equation} \begin{aligned} m(x_1,...,x_{n+1}) &= m(x_1,...,x_n) \int \limits_\Theta f(x_{n+1}|\theta) \pi_n(d \theta | x_1,...,x_n). \\[6pt] \end{aligned} \end{equation}$

Comparando duas classes de modelo pelo fator Bayes, obtemos a equação recursiva:

\begin{aligned} B_{12} (x_{1 1}, . . ., x_{n + 1 1}) & = B_{12} (x_{1 1}, . . ., x_{n}) \cdot \frac{\int_{Θ_{1 1}} f (x_{n + 1 1} | θ) π_{1 1, n} (d θ | x_{1 1}, . . ., x_{n})}{\int_{Θ_{2}} f (x_{n + 1 1} | θ) π_{2, n} (d θ | x_{1 1}, . . ., x_{n})} . \end{aligned}

$\begin{equation} \begin{aligned} \mathfrak{B}_{12}(x_1,...,x_{n+1}) &= \mathfrak{B}_{12}(x_1,...,x_{n}) \cdot \frac{\int _{\Theta_1} f(x_{n+1}|\theta) \pi_{1,n}(d \theta | x_1,...,x_n)}{\int _{\Theta_2} f(x_{n+1}|\theta) \pi_{2,n}(d \theta | x_1,...,x_n)}. \\[6pt] \end{aligned} \end{equation}$

Isso ainda envolve a integração no intervalo de parâmetros, por isso concordo com a sua opinião de que não parece haver nenhuma vantagem computacional em relação à recálculo do fator Bayes pela fórmula inicial que você fornecer. No entanto, você pode ver que isso não requer que você recompute os marginais para o vetor de dados anterior. (Em vez disso, calculamos as densidades preditivas do novo ponto de dados condicional aos dados anteriores, em cada uma das classes de modelo.) Como você, eu realmente não vejo nenhuma vantagem computacional disso, a menos que aconteça que essa fórmula integral seja simplificada facilmente. De qualquer forma, suponho que ele fornece outra fórmula para atualizar o fator Bayes.

— Ben - Restabelecer Monica
fonte

Obrigado. É verdade que os marginais não precisam ser recalculados, stricto sensu , mas a quantidade de computação parece ser a mesma, como você observa.

— Xian

A única vantagem que consigo pensar é que, como agora estamos integrando apenas uma única densidade (em vez do produto de densidades), o integrando será menos volátil e, portanto, essa última fórmula pode facilitar a prevenção de problemas de subfluxo. computação. Talvez isso seja um grande problema.

n

$n$

— Ben - Restabelece Monica