@Tristan: Espero que você não se importe com a reformulação de sua resposta, pois estou trabalhando em como tornar o argumento geral o mais transparente possível.
Para mim, o principalO insight nas estatísticas é conceitualizar observações repetidas que variam - como sendo geradas por um modelo de geração de probabilidade, como Normal (mu, sigma). No início de 1800, s os modelos geradores de probabilidade apresentados eram geralmente apenas para erros de medição com o papel de parâmetros, como mu e sigma e anteriores para eles confusos. As abordagens freqüentistas tomaram os parâmetros como fixos e desconhecidos e, portanto, os modelos geradores de probabilidade envolveram apenas possíveis observações. Abordagens bayesianas (com antecedentes apropriados) têm probabilidade de gerar modelos para possíveis parâmetros desconhecidos e possíveis observações. Esses modelos de geração conjunta de probabilidades são responsáveis por todas as incógnitas possíveis - para ser mais genéricas - possíveis (como parâmetros) e conhecidas (como observações). Como no link de Rubin que você deu,
Na verdade, isso foi muito claramente descrito por Galton em um quincunce de duas etapas no final de 1800, s. Veja a figura 5> Stigler, Stephen M. 2010. Darwin, Galton e a estatística
iluminação. Jornal da Sociedade Estatística Real: Série A
173 (3): 469-482 . .
É equivalente, mas talvez mais transparente que
posterior = anterior (possíveis desconhecidos | possíveis conhecidos = conhecidos)
do que posterior ~ anterior (possíveis incógnitas) * p (possíveis conhecidos = conhecidos | possíveis desconhecidos)
Nada muito novo para os valores ausentes no primeiro, pois apenas adicionamos possíveis incógnitas para um modelo de probabilidade que gera valores ausentes e trata os ausentes como apenas um dos possíveis conhecidos (ou seja, a terceira observação estava ausente).
Recentemente, a computação bayesiana aproximada (ABC) levou a sério essa abordagem construtiva de simulação em dois estágios quando p (possíveis conhecidos = conhecidos | possíveis desconhecidos) não pode ser calculado. Mas mesmo quando isso pode ser resolvido e o posterior facilmente obtido a partir da amostragem MCMC (ou mesmo quando o posterior está diretamente disponível devido ao conjugado anterior), o ponto de Rubin sobre essa construção de amostragem em dois estágios possibilitando uma compreensão mais fácil, não deve ser negligenciado.
Por exemplo, tenho certeza de que teria captado o que o @Zen fez aqui Bayesianos: escravos da função de probabilidade? porque seria necessário desenhar um possível c desconhecido de um anterior (estágio um) e, em seguida, desenhar um possível dado (dado), dado que c (estágio 2) que não teria sido uma geração aleatória, pois p (possíveis conhecimentos | c) não ter sido uma probabilidade, exceto uma e apenas uma c.
From @Zen “Infelizmente, em geral, essa não é uma descrição válida de um modelo estatístico. O problema é que, por definição,fXEu∣ C(⋅ | c ) deve ser uma densidade de probabilidade para quase todos os valores possíveis dec, o que é, em geral, claramente falso. "