Alguém pode explicar os anteriores conjugados nos termos mais simples possíveis?

23

Eu tenho tentado entender a idéia de anteriores conjugados nas estatísticas bayesianas por um tempo, mas simplesmente não entendo. Alguém pode explicar a idéia nos termos mais simples possíveis, talvez usando o "prior gaussiano" como exemplo?

bayesian conditional-probability conjugate-prior

— Jenna Maiz
fonte

23

A prévia de um parâmetro quase sempre terá alguma forma funcional específica (escrita em termos de densidade, geralmente). Digamos que nos restringimos a uma família específica de distribuições; nesse caso, escolher o nosso anterior se reduz a escolher os parâmetros dessa família.

Por exemplo, considere um modelo normal $Y_i \stackrel{_\text{iid}}{\sim} N(\mu,\sigma^2)$ . Para simplificar, vamos também $\sigma^2$ como conhecido. Esta parte do modelo - o modelo para os dados - determina a função de probabilidade.

Para completar nosso modelo bayesiano, aqui precisamos de um prior para $\mu$ .

Como mencionado acima, geralmente podemos especificar alguma família distributiva para o nosso anterior para $\mu$ e, em seguida, temos apenas que escolher os parâmetros dessa distribuição (por exemplo, muitas vezes as informações anteriores podem ser bastante vagas - como aproximadamente onde queremos que a probabilidade se concentre - em vez de uma forma funcional muito específica, e podemos ter liberdade suficiente para modelar o que queremos, escolhendo os parâmetros - digamos, para corresponder a uma média e variação anteriores).

Se acontecer que o posterior para $\mu$ é da mesma família que o anterior, então esse anterior é considerado "conjugado".

(O que faz com que seja conjugado é a maneira como combina com a probabilidade)

Portanto, neste caso, vamos usar um gaussiano anterior para (digamos ). Se fizermos isso, vemos que o posterior para também é gaussiano. Consequentemente, o prior gaussiano foi um conjugado anterior para o nosso modelo acima. $\mu$ $\mu\sim N(\theta,\tau^2)$ $\mu$

Isso é tudo o que realmente existe - se o posterior for da mesma família do anterior, é um conjugado anterior.

Em casos simples, você pode identificar um conjugado antes pela inspeção da probabilidade. Por exemplo, considere uma probabilidade binomial; eliminando as constantes, parece uma densidade beta em ; e por causa da forma como os poderes de e combinam, ele vai multiplicar por um beta antes de dar também um produto de potências de e ... para que possamos ver imediatamente a partir da probabilidade de que o beta será um conjugado anterior para na probabilidade binomial. $p$ $p$ $(1-p)$ $p$ $(1-p)$ $p$

No caso gaussiano, é mais fácil ver que isso acontecerá considerando as densidades de log e a probabilidade de log; a probabilidade logarítmica será quadrática em e a soma de dois quadráticos é quadrática; portanto, uma probabilidade quadrática log-prior + log quadrática fornece um posterior quadrático (é claro que cada um dos coeficientes do termo de ordem mais alta será negativo). $\mu$

— Glen_b -Reinstate Monica
fonte

9

Se o seu modelo pertencer a uma família exponencial , isto é, se a densidade da distribuição for da forma

f (x | θ) = h (x) \exp {T (θ) \cdot S (x) - ψ (θ)} x \in X θ \in Θ

$f(x|\theta)=h(x)\exp\{T(\theta)\cdot S(x)-\psi(\theta)\}\qquad x\in\mathcal{X}\quad\theta\in\Theta$ com respeito a umadada medida dominando(Lebesgue, de contagem, e tc.), onde

t \cdot s

$t\cdot s$ designa um escalar do produto ao longo

R^{d}

$\mathbb{R}^d$ e

T : X ⟶ R^{d} S : Θ ⟶ R^{d}

$T:\mathcal{X}\longrightarrow \mathbb{R}^d\qquad S:\Theta\longrightarrow \mathbb{R}^d$ são funções mensuráveis, os antecedentes conjugadas sobre

θ

$\theta$ são definidos por densidades da forma

π (θ | ξ, λ) = C (ξ, λ) \exp {T (θ) \cdot ξ - λ ψ (θ)}

$\pi(\theta|\xi,\lambda)=C(\xi,\lambda)\exp\{T(\theta)\cdot \xi-\lambda\psi(\theta)\}$ [com relação a umamedida dominante escolhida arbitrariamente

d ν

$\text{d}\nu$ em

Θ

$\Theta$ ] com

C (ξ, λ)^{- 1} = \int_{Θ} \exp {T (θ) \cdot ξ - λ ψ (θ)} d ν < \infty

$C(\xi,\lambda)^{-1}=\int_\Theta \exp\{T(\theta)\cdot \xi-\lambda\psi(\theta)\} \text{d}\nu<\infty$ e

λ \in Λ \subset R_{+}

$\lambda\in\Lambda\subset\mathbb{R}_+$ ,

ξ \in Ξ \subset λ T (X)

$\xi\in\Xi\subset \lambda T(\mathcal{X})$

A escolha da medida dominante é determinante para a família de priores. Se, por exemplo, houver uma probabilidade média normal em $\mu$ como na resposta de Glen_b , escolher a medida de Lebesgue $\text{d}\mu$ como a medida dominante leva à conjugação dos anteriores normais. Se, em vez disso, se escolher $(1+\mu^2)^{-2}\text{d}\mu$ como medida dominante, os anteriores conjugados estarão dentro da família de distribuições com densidades

\exp {- α (μ - μ_{0})^{2}} α > 0, μ_{0} \in R

$\exp\{-\alpha(\mu-\mu_0)^2\} \qquad\alpha>0,\ \ \mu_0\in\mathbb R$ com relação a essa medida dominante e, portanto, não são mais anteriores normais. Essa dificuldade é essencialmente a mesma que a de escolher uma parametrização específica da probabilidade e optar pela medida de Lebesgue para essa parametrização. Quando confrontados com uma função de probabilidade, não há medida dominante inerente (ou intrínseca ou de referência) no espaço de parâmetros.

Fora dessa configuração de família exponencial, não há uma família de distribuições não trivial com um suporte fixo que permita anteriores conjugados. Isso é conseqüência do lema de Darmois-Pitman-Koopman .

— Xi'an
fonte

11

"nos termos mais simples possíveis?" Talvez uma explicação que não assuma o conhecimento prévio das medidas seria mais útil para o PO.

3

infelizmente, receio que os conjugados anteriores não tenham sentido sem um plano de fundo de medida (mesmo que este seja o segredo mais bem guardado do Universo).

— Xian

6

Na minha opinião, "termos mais simples possíveis" estão abertos à interpretação, e uma explicação que faz uso de matemática avançada, como a teoria das medidas, ainda pode ser "simples" em algum sentido, talvez até "mais simples" do que uma explicação que evite esse tipo de maquinário. De qualquer forma, essa explicação pode ser muito esclarecedora para alguém que possua os conhecimentos necessários para entendê-la e é inofensivo incluir uma resposta como essa em uma lista de várias maneiras de explicar um tópico. Nós escrevemos respostas não apenas para OP, mas para todos os futuros leitores.

— littleO

1

@LBogaardt Suas críticas teriam mais peso se você pudesse criar um link para uma ou mais perguntas em que você acha que essa resposta seria tanto no tópico quanto em um nível mais adequado. Lembre-se de que "simples" não é um termo bem definido e tem diferentes interpretações subjetivas. Independentemente disso, seria inválido confundi-lo com "matematicamente não sofisticado", conforme sugerido por seus comentários.

— whuber

2

A resposta de Xi'an não é inútil para mim. Eu aprendi alguma coisa

— littleO

2

Eu gosto de usar a noção de um "kernel" de uma distribuição. É aqui que você sai apenas nas partes que dependem do parâmetro. Alguns exemplos simples.

Núcleo normal

p (μ | a, b) = K^{- 1} \times \exp (a μ^{2} + b μ)

$p(\mu|a,b) = K^{-1} \times \exp(a\mu^2 +b\mu)$ Onde

K

$K$ é a "constante de normalização"

K = \int \exp (a μ^{2} + b μ) d μ = \sqrt{\frac{π}{- a}} \exp (- \frac{b^{2}}{4 a})

$K=\int \exp(a\mu^2 +b\mu)d\mu=\sqrt{\frac{\pi}{-a}}\exp(-\frac{b^2}{4a})$ A conexão com os parâmetros padrão de média / variância é

E (μ | a, b) = - \frac{b}{2 a}

$E(\mu|a,b)=-\frac{b}{2a}$ e

V a r (μ | a, b) = - \frac{1}{2 a}

$Var(\mu|a,b)=-\frac{1}{2a}$

Kernel beta

p (θ | a, b) = K^{- 1} \times θ^{a} (1 - θ)^{b}

$p(\theta|a,b)=K^{-1}\times \theta^a (1-\theta)^b$ Onde

K = \int θ^{a} (1 - θ)^{b} d θ = B e t a (a + 1, b + 1)

$K=\int \theta^a (1-\theta)^b d\theta = Beta(a+1,b+1)$

Quando olhamos para a função de probabilidade, podemos fazer a mesma coisa e expressá-la em "forma de kernel". Por exemplo, com dados iid

p (D | μ) = \prod_{i = 1}^{n} p (x_{i} | μ) = Q \times f (μ)

$p(D|\mu)=\prod_{i=1}^n p(x_i|\mu)=Q\times f(\mu)$

Para algumas constantes $Q$ e algumas funções $f(\mu)$ . Se pudermos reconhecer essa função como um kernel, podemos criar um conjugado anterior para essa probabilidade. Se tomarmos a probabilidade normal com variação de unidade, o acima será parecido com

p (D | μ) = \prod_{i = 1}^{n} p (x_{i} | μ) = \prod_{i = 1}^{n} \frac{1}{\sqrt{2 π}} \exp (- \frac{(x_{i} - μ)^{2}}{2}) = [\prod_{i = 1}^{n} \frac{1}{\sqrt{2 π}}] \times \prod_{i = 1}^{n} \exp (- \frac{(x_{i} - μ)^{2}}{2}) = (2 π)^{- \frac{n}{2}} \times \exp (- \sum_{i = 1}^{n} \frac{(x_{i} - μ)^{2}}{2}) = (2 π)^{- \frac{n}{2}} \times \exp (- \sum_{i = 1}^{n} \frac{x_{i}^{2} - 2 x_{i} μ + μ^{2}}{2}) = (2 π)^{- \frac{n}{2}} \times \exp (- \sum_{i = 1}^{n} \frac{x_{i}^{2}}{2}) \times \exp (μ \sum_{i = 1}^{n} x_{i} - μ^{2} \frac{n}{2}) = Q \times \exp (a μ^{2} + b μ)

$p(D|\mu) =\prod_{i=1}^n p(x_i|\mu) =\prod_{i=1}^n \frac{1}{\sqrt{2\pi}}\exp(-\frac{(x_i-\mu)^2}{2}) =\left[\prod_{i=1}^n \frac{1}{\sqrt{2\pi}}\right]\times \prod_{i=1}^n \exp(-\frac{(x_i-\mu)^2}{2}) =(2\pi)^{-\frac{n}{2}}\times\exp(-\sum_{i=1}^n\frac{(x_i-\mu)^2}{2}) =(2\pi)^{-\frac{n}{2}}\times\exp(-\sum_{i=1}^n\frac{x_i^2-2x_i\mu+\mu^2}{2}) =(2\pi)^{-\frac{n}{2}}\times\exp(-\sum_{i=1}^n\frac{x_i^2}{2})\times\exp(\mu\sum_{i=1}^n x_i-\mu^2\frac{n}{2}) =Q\times \exp(a\mu^2 +b\mu)$

where $a=-\frac{n}{2}$ and $b=\sum_{i=1}^n x_i$ and $Q=(2\pi)^{-\frac{n}{2}}\times\exp(-\sum_{i=1}^n\frac{x_i^2}{2})$

This likelihood function has the same kernel as the normal distribution for $\mu$ , so a conjugate prior for this likelihood is also the normal distribution.

p (μ | a_{0}, b_{0}) = K_{0}^{- 1} \exp (a_{0} μ^{2} + b_{0} μ)

$p(\mu|a_0,b_0)=K_0^{-1}\exp(a_0\mu^2 +b_0\mu)$ The posterior is then

p (μ | D, a_{0}, b_{0}) \propto K_{0}^{- 1} \exp (a_{0} μ^{2} + b_{0} μ) \times Q \times \exp (a μ^{2} + b μ) = K_{0}^{- 1} \times Q \times \exp ([a + a_{0}] μ^{2} + [b + b_{0}] μ) \propto \exp ([a + a_{0}] μ^{2} + [b + b_{0}] μ)

$p(\mu|D,a_0,b_0)\propto K_0^{-1}\exp(a_0\mu^2 +b_0\mu)\times Q\times \exp(a\mu^2 +b\mu)=K_0^{-1}\times Q\times \exp([a+a_0]\mu^2 +[b+b_0]\mu)\propto\exp([a+a_0]\mu^2 +[b+b_0]\mu)$ Showing that the posterior is also a normal distribution, with updated parameters from the prior using the information in the data.

In some sense a conjugate prior acts similarly to adding "pseudo data" to the data observed, and then estimating the parameters.

— probabilityislogic
fonte

1

(+1) I appreciate the pseudo-data intuition!

— Xi'an

1

Para uma determinada família de distribuição $D_{lik}$ da probabilidade (por exemplo, Bernoulli),

se o prior for da mesma família de distribuição $D_{pri}$ como o posterior (por exemplo, Beta),

então $D_{pri}$ e $D_{lik}$ are conjugate distribution families and the prior is called a conjugate prior for the likelihood function.

Note: $\underbrace{p(\theta|x)}_{\text{posterior}} \sim \underbrace{p(x|\theta)}_{\text{likelihood}} \cdot \underbrace{p(\theta)}_{\text{prior}}$

— Thomas G.
fonte

How does this explain what a conjugate prior is?

— LBogaardt

ok I'll edit that.

— Thomas G.