Por que é necessário colher amostras da distribuição posterior, se já sabemos a distribuição posterior?

Meu entendimento é que, ao usar uma abordagem bayesiana para estimar valores de parâmetros:

A distribuição posterior é a combinação da distribuição anterior e da distribuição de probabilidade.
Simulamos isso gerando uma amostra da distribuição posterior (por exemplo, usando um algoritmo Metropolis-Hasting para gerar valores, e os aceitamos se estiverem acima de um certo limite de probabilidade de pertencer à distribuição posterior).
Depois de gerarmos esta amostra, usamos-a para aproximar a distribuição posterior e coisas como sua média.

Mas sinto que devo estar entendendo mal alguma coisa. Parece que temos uma distribuição posterior e, em seguida, fazemos uma amostra dela, e depois usamos essa amostra como uma aproximação da distribuição posterior. Mas se temos a distribuição posterior para começar, por que precisamos fazer uma amostra para aproximar?

— Dave
fonte

Esta questão provavelmente já foi considerada neste fórum.

Quando você afirma que "tem a distribuição posterior", o que exatamente você quer dizer? "Ter" uma função de que Sei é proporcional à posterior, ou seja, , por exemplo, o alvo completamente artificial $\theta$

π (θ | x) \propto π (θ) \times f (x | θ)

$\pi(\theta|x) \propto \pi(\theta) \times f(x|\theta)$

não me diga o que é

π (θ | x) \propto \exp {- | | θ - x | |^{2} - | | θ + x | |^{4} - | | θ - 2 x | |^{6}}, x, θ \in R^{18},

$\pi(\theta|x)\propto\exp\{-||\theta-x||^2-||\theta+x||^4-||\theta-2x||^6\},\ \ x,\theta\in\mathbb{R}^{18},$

a expectativa posterior de uma função de , por exemplo, , média posterior que opera como um estimador bayesiano sob perdas padrão; $\theta$ $\mathbb{E}[\mathfrak{h}(\theta)|x]$
a decisão ideal sob uma função de utilidade arbitrária, decisão que minimiza a perda posterior esperada;
uma faixa de incerteza de 90% ou 95% no (s) parâmetro (s), um subvetor do (s) parâmetro (s) ou uma função do (s) parâmetro (s), também conhecido como região HPD ${h = h (θ); π^{h} (h) \geq \underline{h}}$ $\{h=\mathfrak{h}(\theta);\ \pi^\mathfrak{h}(h)\ge \underline{h}\}$
o modelo mais provável para escolher entre definir alguns componentes do (s) parâmetro (s) para valores específicos e mantê-los desconhecidos (e aleatórios).

Estes são apenas exemplos de muitos usos da distribuição posterior. Em todos os casos, exceto nos mais simples, não posso fornecer as respostas observando a densidade de distribuição posterior e preciso prosseguir com resoluções numéricas como os métodos Monte Carlo e Monte Carlo da cadeia de Markov e da cadeia de Markov.

— Xi'an
fonte

Muito obrigado pela resposta Xi'an. Tenho certeza de que isso responde à minha pergunta, mas ainda estou tendo um pouco de dificuldade para entender. Estou certo de que temos uma função de densidade de probabilidade correspondente à posterior (isto é, combinando a anterior e a probabilidade)? Por que não conseguimos encontrar o IC 95% diretamente disso, e não da distribuição posterior amostrada?

— Dave

@ Dave Acho que a chave aqui é o que você quer dizer com "ter". Em geral, você não terá uma solução de formulário fechado, portanto não terá a função em um sentido útil.

— monk

@monk obrigado pela resposta! Você se importa em elaborar o que torna uma solução de formulário não fechado?

— Dave

Suponha que seu prior é Beta (a, b) e sua probabilidade é Binomial (n, p). Como você calcula o valor esperado do seu posterior? Tente elaborar a integral desse produto com caneta e papel. Em geral, essa integral será algo que exige que um computador obtenha um valor preciso. Como alternativa, você pode descobrir que o Beta é conjugado antes do Binomial e, portanto, o posterior será o Beta (com parâmetros facilmente computáveis). Mas muitas vezes você não terá tanta sorte. É difícil definir uma definição de "formulário fechado" e vale a pena ler por conta própria.

— monk

Sim, você pode ter uma distribuição posterior analítica. Mas o núcleo da análise bayesiana é marginalizar a distribuição posterior dos parâmetros para obter um melhor resultado de previsão, tanto em termos de precisão quanto de capacidade de generalização. Basicamente, você deseja obter uma distribuição preditiva com o seguinte formato.

$p(x|D)=\int p(x|w) p(w|D)dw$

onde é a distribuição posterior para a qual você pode ter uma forma analítica. Mas em muitos casos, $p(w|D)$ $p(w|D)$ $p(x|w)$

— Karlsson Yu
fonte