O posterior bayesiano precisa ser uma distribuição adequada?

21

Eu sei que os priores não precisam ser adequados e que a função de probabilidade também não se integra a 1. Mas o posterior precisa ser uma distribuição adequada? Quais são as implicações se é / não é?

distributions bayesian posterior

— ATJ
fonte

15

(É uma surpresa ler as respostas anteriores, que se concentram na impropriedade potencial do posterior quando o prior é adequado, pois, até onde posso dizer, a questão é se o posterior deve ou não ser adequado ( isto é, integrável a um) para ser um posterior adequado (isto é, aceitável para inferência bayesiana).)

Na estatística bayesiana, a distribuição posterior deve ser uma distribuição de probabilidade, da qual se pode derivar momentos como a média posterior e declarações de probabilidade como a cobertura de uma credibilidade região, . Se o posterior não pode normalizado em uma densidade de probabilidade e a inferência bayesiana simplesmente não pode ser conduzida. O posterior simplesmente não existe nesses casos. $\mathbb{E}^\pi[h(\theta)|x]$ $\mathbb{P}(\pi(\theta|x)>\kappa|x)$

\int f (x | θ) π (θ) d θ = + \infty, (1)

$\int f(x|\theta)\,\pi(\theta)\,\text{d}\theta = +\infty\,,\qquad (1)$

π (θ | x)

$\pi(\theta|x)$

Na verdade, (1) deve ser válido para todos os no espaço de amostra e não apenas para o observado , caso contrário, a seleção do anterior dependeria dos dados . Isso significa que anteriores como o anterior de Haldane, , na probabilidade de uma variável binomial ou binomial negativa não podem ser usadas, pois a posterior não é definido para . $x$ $x$ $\pi(p)\propto \{1/p(1-p)\}$ $p$ $X$ $x=0$

Conheço uma exceção quando se pode considerar "posteriores impróprios": encontra-se em "A arte do aumento de dados", de David van Dyk e Xiao-Li Meng. A medida imprópria ultrapassa o chamado parâmetro de trabalho modo que a observação é produzida pelo marginal de uma distribuição aumentada e van Dyk e Meng colocam um anterior inadequado neste parâmetro de trabalho para acelerar a simulação de (que permanece bem definida como uma densidade de probabilidade) pelo MCMC. $\alpha$

f (x | θ) = \int_{T (x^{agosto}) = x} f (x^{agosto} | θ, α) d x^{agosto}

$f(x|\theta)=\int_{T(x^\text{aug})=x} f(x^\text{aug}|\theta,\alpha)\,\text{d}x^\text{aug}$

p (α)

$p(\alpha)$

α

$\alpha$

π (θ | x)

$\pi(\theta|x)$

Em outra perspectiva, um pouco relacionada à resposta de eretmochelys , a saber, uma perspectiva da teoria da decisão bayesiana , um cenário em que (1) ocorre ainda pode ser aceitável se levar a decisões ótimas. Ou seja, se é uma função de perda que avalia o impacto do uso da decisão , uma decisão ideal bayesiana sob o anterior é dada por e tudo o que importa é que essa integral não esteja em todo lugar (in ) infinito. Se (1) mantém ou não é secundário para a derivação de $L(\delta,\theta)\ge 0$ $\delta$ $\pi$

δ^{⋆} (x) = \arg min_{δ} \int eu (δ, θ) f (x | θ) π (θ) d θ

$\delta^\star(x)=\arg\min_\delta \int L(\delta,\theta) f(x|\theta)\,\pi(\theta)\,\text{d}\theta$

δ

$\delta$

δ^{⋆} (x)

$\delta^\star(x)$ , mesmo que propriedades como admissibilidade sejam garantidas apenas quando (1) é válido.

— Xi'an
fonte

19

A distribuição posterior não precisa ser adequada, mesmo que o anterior seja adequado. Por exemplo, suponha que tenha um Gamma anterior com a forma 0,25 (o que é apropriado) e modelemos nosso dado como desenhado a partir de uma distribuição gaussiana com zero médio e variância . Suponha que é observado como zero. Então a probabilidade é proporcional a , o que torna a distribuição posterior de imprópria, uma vez que é proporcional a . Esse problema surge devido à natureza maluca das variáveis contínuas. $v$ $x$ $v$ $x$ $p(x|v)$ $v^{-0.5}$ $v$ $v^{-1.25} e^{-v}$

— Tom Minka
fonte

Exemplo legal, Tom!

— Zen

+1, no entanto, você poderia expandir a resposta para a última frase do OP? Esse posterior esquisito é significativo (você pode fazer o tipo de coisa que normalmente faria com um posterior) ou é mais análogo a obter um NaN ou Inf de alguns cálculos? É um sinal de que algo está errado com o seu modelo?

— Wayne

5

Não há nada de errado com o modelo. Esse posterior é significativo no sentido de que, se você receber outra observação, poderá multiplicá-la e possivelmente voltar a uma posterior adequada. Portanto, não é como um NaN, no qual todas as operações adicionais são NaN.

— 21714 Tom Tom Minka

8

Embora provavelmente seja tarde demais para importar, não acho que o uso de "contra-exemplos" ajude os iniciantes: o problema surge porque você usa uma versão específica da densidade gaussiana em , quando pode ser definido arbitrariamente neste conjunto da medida zero. E, portanto, tornar o posterior apropriado ou inadequado, dependendo da versão escolhida.

x = 0

$x=0$

— Xian

Interessante - se você pegar o geral , o posterior é um gaussiano inverso generalizado com os parâmetros . @ Xi'an - seria bom ver a maneira alternativa de obter uma posterior adequada disso.

x

$x$

- 0.25, 1, x^{2}

$-0.25,1,x^2$

— probabilityislogic

11

Definir o conjunto que have A última integral será igual a se a medida de Lebesgue de for positiva. Mas isso é impossível, porque essa integral fornece uma probabilidade (um número real entre e ). Portanto, a medida de Lebesgue de é igual a e, é claro, também segue que

Bogus Data = {x : \int f (x ∣ θ) π (θ) d θ = \infty},

$\text{Bogus Data} = \left\{ x:\int f(x\mid \theta)\,\pi(\theta)\,d\theta = \infty \right\} \, ,$

P r (X \in Bogus Data) = \int_{Bogus Data} \int f (x ∣ θ) π (θ) d θ d x = \int_{Bogus Data} \infty d x .

$\mathrm{Pr}\left(X\in\text{Bogus Data}\right) = \int_\text{Bogus Data} \int f(x\mid \theta)\,\pi(\theta)\,d\theta\,dx = \int_\text{Bogus Data} \infty\,dx \, .$

\infty

$\infty$

Bogus Data

$\text{Bogus Data}$

0

$0$

1

$1$

Bogus Data

$\text{Bogus Data}$

0

$0$

P r (X \in Bogus Data) = 0

$\mathrm{Pr}\left(X\in\text{Bogus Data}\right)=0$ .

Em palavras: a probabilidade preditiva prévia dos valores amostrais que tornam o posterior inadequado é igual a zero.

Moral da história: cuidado com conjuntos nulos, eles podem morder, por mais improvável que seja.

PS Como apontado pelo professor Robert nos comentários, esse raciocínio explode se o prior for impróprio.

— zen
fonte

4

Você escreveu uma vez : "Se pudermos começar com um prior adequado e obter um posterior impróprio, então vou parar de deduzir".

— 21714 Tom Tom Minka

2

Um pouquinho da língua, havia um quantificador implícito: se podemos começar com um prior adequado e obter um posterior inadequado, para cada valor de amostra possível, então pararei de inferência. ;-) #

— Zen

A propósito, uma memória notável, Tom!

— Zen

4

P r (X \in Bogus Data)

$\mathrm{Pr}\left(X\in\text{Bogus Data}\right)$

(θ, x)

$(\theta,x)$

1

Você está correto. O raciocínio na resposta funciona apenas com os priores. Bom ponto. Vou adicionar uma nota.

— Zen

3

Qualquer "distribuição" deve somar (ou integrar) a 1. Eu posso pensar em alguns exemplos em que alguém pode trabalhar com distribuições não normalizadas, mas não me sinto à vontade em chamar qualquer coisa que marginalize a algo que não seja 1 "distribuição".

$x$ $d$

\begin{aligned} \hat{x} & = \arg max_{x} P_{X | D} (x | d) \\ = \arg max_{x} \frac{P_{D | X} (d | x) P_{X} (x)}{P_{D} (d)} \\ = \arg max_{x} P_{D | X} (d | x) P_{X} (x) \end{aligned}

$\begin{align} \hat{x} &= \arg \max_x P_{X|D}(x|d) \\ &= \arg \max_x \frac{P_{D|X}(d|x) P_X(x)}{P_D(d)} \\ &= \arg \max_x {P_{D|X}(d|x) P_X(x)} \end{align}$

$P_D$ $x$ $\hat{x}$ $P_{D|X}(d|x) P_X(x)$

— eretmochelys
fonte

@ Zen você se importaria em ser mais explícito sobre o que você acha que está errado (ou fundamentalmente incompleto) sobre esta resposta?

— whuber

1

Uma maneira de interpretar a questão do OP "o posterior precisa ser uma distribuição adequada?" é perguntar se é matematicamente possível começar com um anterior adequado e terminar com um posterior inadequado. A resposta de Minka dá um exemplo explícito em que isso acontece. Tentei complementá-lo com a minha resposta e salientar que isso só pode acontecer dentro de um conjunto de probabilidade preditiva nula anterior.

— Zen

1

@ Zen Parece-me que uma interpretação intimamente relacionada é "se a posterior não for adequada, que informações posso obter dela?" Essa resposta aceita parece fornecer conselhos úteis e corretos relacionados a isso em uma circunstância especial (que está claramente descrita). A aceitação me parece um sinal que eretmochelys atingiu em casa com um palpite perspicaz sobre as circunstâncias.

— whuber

-2

$n$ $Beta(0,0)$

— omidi
fonte

3

Esta resposta está incorreta. Veja minha resposta.

— precisa