Inferência bayesiana em uma soma de variáveis aleatórias com valor real de iid

Seja , , ..., como seus RVs com intervalo mas com distribuição desconhecida. (Aceito que a distribuição seja contínua etc., se necessário.) $X_1$ $X_2$ $X_n$ $[0,1]$

Defina . $S_n = X_1 + \cdots + X_n$

Eu sou dado , e perguntar: O que posso inferir, de uma maneira Bayesian, sobre ? $S_k$ $S_n$

Ou seja, recebi a soma de uma amostra do tamanho dos VRs e gostaria de saber o que posso deduzir sobre a distribuição da soma de todos os RVs, usando uma abordagem bayesiana (e assumindo-se anteriores razoáveis sobre o distribuição). $k$

Se o suporte fosse vez de , esse problema será bem estudado e (com anteriores uniformes) você obterá distribuições de compostos beta-binomiais para a distribuição inferida em . Mas não sei como abordá-lo com como o intervalo ... $\{0,1\}$ $[0,1]$ $S_n$ $[0,1]$

Divulgação completa : Eu já postei isso no MathOverflow , mas me disseram que seria melhor postado aqui, então isso é uma re-publicação.

bayesian inference

— Ronald L Rivest
fonte

Eu estava prestes a escrever um comentário para você no MO, mas vou escrevê-lo aqui. Se você acha que a pergunta é mais adequada para este fórum, você pode sinalizá-la no MO e pedir que ela seja fechada.

— cardeal

Gostaria de esclarecer sua última declaração. Se o intervalo for , qualquer distribuição que coloque massa em valores que não estejam em para a distribuição de parecerá uma bobagem, então, me pergunto se eu ' entendi seu objetivo corretamente. (Talvez uma referência seria útil.)

{0, 1}

$\{0,1\}$

{0, 1, \dots, n}

$\{0,1,\ldots,n\}$

S_{k}

$S_k$

— cardeal

O que eu entendi errado?

— cardeal

Você está interessado em não paramétricos bayesianos? Se você não quiser fazer suposições sobre a distribuição dos 's, precisará de uma estrutura não paramétrica. Mas, em seguida, dada apenas você não pode dizer muito ...

X_{k}

$X_k$

S_{k}

$S_k$

— Xi'an

Essas são boas observações; desculpe o problema estar um pouco confuso. Eu estava pensando que n é muito grande em comparação com , e que o posterior em refletiria diretamente o posterior nos parâmetros. Talvez, em vez de eu devesse ter usado e solicitado o posterior on medida que vai para o infinito. Isso faz sentido agora?

k

$k$

S_{n}

$S_n$

S_{n}

$S_n$

S_{n}^{'} = S_{n} / n

$S'_n = S_n/n$

lim S_{n}^{'}

$\lim S'_n$

n

$n$

— Ronald L Rivest

Respostas:

Considere a seguinte análise não paramétrica bayesiana.

Defina e deixe que sejam os subconjuntos Borel de . Seja uma medida finita diferente de zero . $\mathscr{X}=[0,1]$ $\mathscr{B}$ $\mathscr{X}$ $\alpha$ $(\mathscr{X},\mathscr{B})$

Seja um processo de Dirichlet com o parâmetro e suponha que sejam condicionais iid, dado que , de modo que , para cada . $Q$ $\alpha$ $X_1,\dots,X_n$ $Q=q$ $\mu_{X_1}(B)=P\{X_1\in B\} = q(B)$ $B\in\mathscr{B}$

A partir das propriedades do processo Dirichlet, sabemos que, considerando , a distribuição preditiva de uma observação futura como é a medida over definido por $X_1,\dots,X_k$ $X_{k+1}$ $\beta$ $(\mathscr{X},\mathscr{B})$

β (B) = \frac{1}{α (X) + k} (α (B) + \sum_{i = 1}^{k} I_{B} (X_{i})) .

$\beta(B) = \frac{1}{\alpha(\mathscr{X})+k} \left( \alpha(B) + \sum_{i=1}^k I_B(X_i)\right) \, .$

Agora, defina como o campo sigma gerado por e use a mensurabilidade e a simetria dos para obter quase certamente. $\mathscr{F}_k$ $X_1,\dots,X_k$ $X_i$

E [S_{n} ∣ F_{k}] = S_{k} + E [\sum_{i = k + 1}^{n} X_{i} | F_{k}] = S_{k} + (n - k) E [X_{k + 1} ∣ F_{k}],

$E\left[ S_n \mid \mathscr{F}_k \right] = S_k + E\left[ \sum_{i=k+1}^n X_i \,\Bigg\vert\, \mathscr{F}_k \right] = S_k + (n-k) E\left[ X_{k+1} \mid \mathscr{F}_k \right] \, ,$

Para encontrar uma resposta explícita, suponha que seja . Definindo , temos quase com certeza (a distribuição conjunta de ), onde . No limite "não informativo" de , a expectativa anterior se reduz a , o que significa que, nesse caso, sua suposição posterior para é apenas vezes a média do primeiro $\alpha(\cdot)/\alpha(\mathscr{X})$ $U[0,1]$ $c=\alpha(\mathscr{X})>0$

E [S_{n} ∣ X_{1} = x_{1}, \dots, X_{k} = x_{k}] = s_{k} + \frac{n - k}{c + k} (\frac{c}{2} + s_{k}),

$E\left[ S_n \mid X_1=x_1,\dots,X_k=x_k \right] = s_k + \frac{n-k}{c+k}\left(\frac{c}{2}+s_k\right) \, ,$

[μ_{X_{1}, \dots, X_{k}}]

$[\mu_{X_1,\dots,X_k}]$

X_{1}, \dots, X_{k}

$X_1,\dots,X_k$

s_{k} = x_{1} + \dots + x_{k}

$s_k=x_1+\dots+x_k$

c \to 0

$c\to 0$

n \cdot (s_{k} / k)

$n\cdot (s_k/k)$

S_{n}

$S_n$

n

$n$

k

$k$ observações, que parecem tão intuitivas quanto possível.

— zen
fonte

Também é possível obter uma boa expressão para nesse modelo?

Var [S_{n} | S_{k}]

$\text{Var}[S_n|S_k]$

— Cyan

Perdoe a teoria da falta de medida e os abusos de notação nos itens abaixo ...

Como essa é a inferência bayesiana, deve haver um pouco do desconhecido no problema, que neste caso é a distribuição de , um parâmetro de dimensão infinita que assume valores no conjunto de distribuições em (chame-o ). A distribuição de dados converge para uma distribuição normal; portanto, se for grande o suficiente ( teorema de Berry-Esseen ), podemos apenas dar um tapa nesse normal como uma aproximação. Além disso, se a aproximação for precisa, o único aspecto do que importa em termos práticos é o induzido antes em . $X_1$ $[0, 1]$ $\pi$ $S_k|\pi$ $k$ $p(\pi)$ $(\text{E}_\pi(X_1),\text{Var}_\pi(X_1))=(\mu,\sigma^2)$

Agora fazemos a previsão bayesiana padrão e colocamos as densidades aproximadas. ( está sujeito à mesma aproximação que .) $S_n$ $S_k$

$p(S_n|S_k) = \int p(\pi|S_k)p(S_n|\pi,S_k)d\pi$

$p(S_n|S_k) = \int \frac{p(\pi)p(S_k|\pi)}{p(S_k)}p(S_n|\pi,S_k)d\pi$

$p(S_n|S_k) \approx \frac{\int p(\mu,\sigma^2)\text{N}(S_k|k\mu,k\sigma^2)\text{N}(S_n|(n-k)\mu + S_k, (n-k)\sigma^2) d(\mu,\sigma^2)}{\int p(\mu,\sigma^2)\text{N}(S_k|k\mu,k\sigma^2) d(\mu,\sigma^2)}$

Para os limites da integral, , obviamente; Eu acho que ? $\mu \in [0, 1]$ $\sigma^2 \in [0,\frac{1}{4}]$

Adicionado mais tarde: não,Isso é legal - os valores permitidos de dependem de , portanto as informações nos dados sobre são relevantes para . $\sigma^2 \in [0,\mu(1-\mu)].$ $\sigma^2$ $\mu$ $\mu$ $\sigma^2$

— Ciano
fonte

Eu não entendo o seu parágrafo principal. Em primeiro lugar, a convergência para um normal é somente após uma mudança e nova escala de e isso não é pelo teorema de Berry - Esseen (que é um teorema da taxa de convergência para o normal), mas pelo CLT. Além disso, a mudança e a nova escala dependerão do parâmetro fixo específico. Você já viu um caso em que você tem, digamos, três pontos antes distribuídos uniformemente em ?

S_{n}

$S_n$

{0, 1 / 2, 1}

$\{0,1/2,1\}$

— cardeal

Deixe-me esclarecer que quando escrevo "normal" não quero dizer normal normal. Portanto, a mudança e a reescala alteram a média e a variação, mas a convergência ainda está em algum elemento da família de distribuições normais. Eu quis dizer que o link para o teorema de Berry-Esseen faça referência à frase "se for grande o suficiente"; seu posicionamento atual é um erro de cortar e colar, e eu vou alterá-lo. Não entendi sua pergunta sobre o parâmetro fixo - você pode esclarecer a questão?

k

$k$

— Cyan

Re: pergunta do cardeal. Observe que o prior é uma distribuição em distribuições com suporte em . Se eu entendi sua pergunta literalmente, você está perguntando sobre um prior que tem suporte em três variáveis aleatórias constantes , o que é trivial para analisar. Mas como você escreveu em outro comentário "Se o intervalo for , qualquer distribuição que coloque massa em valores que não estão em

[0, 1]

$[0, 1]$

0, 1

${0,1}$

0, 1, \dots, n

${0,1,…,n}$ para a distribuição de

S_{k}

$S_k$ Parece bobagem," Eu acho que você está pedindo distribuições de dados discretos A resposta curta é, 'não, não é bobagem' Continuação ....

— Cyan

Não há problema em aproximar uma distribuição discreta de uma distribuição contínua .

— Cyan

Eu acho que existem várias questões aqui: (a) A declaração da pergunta pode usar algum refinamento para esclarecer o objetivo final, (b) a pergunta, os comentários e as respostas foram, infelizmente, confusos devido a erros de digitação inadvertidos, erros de cálculo e vários tópicos de conversa , e (c) meus comentários mencionados acima parecem um pouco fora de contexto. Minha declaração sobre

S_{k}

$S_k$ (Erro de digitação: deveria ter sido

S_{n}

$S_n$ ) diz respeito à distribuição posterior de

S_{n}

$S_n$ dado

S_{k}

$S_k$ . Se eu soubesse

S_{n} \in {S_{k}, \dots, n}

$S_n \in \{S_k,\ldots,n\}$ então qualquer distribuição posterior que não coloque toda a sua massa deve ser inadmissível.

— cardeal

Deixe cada $X_i$ pertencer à família de distribuição $F$ e tem parâmetros $\theta$ .

Dado, $S_k$ , temos uma distribuição em $\theta$ :

\begin{aligned} Pr (θ ∣ S_{k}) & = \frac{1}{Z} Pr (θ) Pr (S_{k} ∣ θ) \end{aligned}

$\begin{align} \Pr(\theta \mid S_k) &= \frac1Z \Pr(\theta)\Pr(S_k \mid \theta) \end{align}$

E nossa distribuição em $S_n$ , $n \ge k$ é

\begin{aligned} Pr (S_{n} = i ∣ S_{k}) & = Pr (S_{n - k} = i - S_{k} | S_{k}) \\ = \int Pr (S_{n - k} = i - S_{k} | θ) Pr (θ ∣ S_{k}) d θ \end{aligned}

$\begin{align} \Pr(S_n = i \mid S_k) &= \Pr(S_{n-k} = i - S_k | S_k) \\ &= \int \Pr(S_{n-k} = i - S_k | \theta)\Pr(\theta \mid S_k)d\theta \\ \end{align}$

(e da mesma forma para $n < k$ )

Ambas as equações têm boas formas quando $F$ é uma distribuição na família exponencial que é fechada sob a soma de elementos iid, como a distribuição normal, a distribuição gama e a distribuição binomial. Também funciona para seus casos especiais, como a distribuição exponencial e a distribuição de Bernoulli.

Pode ser interessante considerar $F$ é a família de escalado (por $\frac1n$ ) distribuições binomiais com "ensaios" conhecidos $n$ e tomando o limite como $n$ vai para o infinito.

— Neil G
fonte

Inferência bayesiana em uma soma de variáveis ​​aleatórias com valor real de iid

Inferência bayesiana em uma soma de variáveis aleatórias com valor real de iid