Por que a distribuição posterior na inferência bayesiana geralmente é intratável?


15

Tenho um problema para entender por que a inferência bayesiana leva a problemas intratáveis. O problema é frequentemente explicado assim:

insira a descrição da imagem aqui

O que não entendo é por que essa integral precisa ser avaliada em primeiro lugar: parece-me que o resultado da integral é simplesmente uma constante de normalização (como o conjunto de dados D é fornecido). Por que não se pode simplesmente calcular a distribuição posterior como numerador do lado direito e, em seguida, inferir essa constante de normalização exigindo que a integral sobre a distribuição posterior seja 1?

o que estou perdendo?

Obrigado!


6
A quem possa interessar: esta questão é diretamente sobre o tópico, porque se trata de estatística.
Sycorax diz Reinstate Monica

3
O trecho está mal escrito. Esteja ciente de que não é a distribuição posterior; é a probabilidade incondicional dos dados (isto é, independentemente do teta). Como P ( D ) será o mesmo para todos os modelos considerados para o mesmo conjunto de dados, ele não precisa necessariamente ser calculado. Caso contrário, basta alterar o sinal de igual para 'proporcional a' ( ). P(D)P(D)
gung - Restabelece Monica

Você poderia fornecer a referência desse slide, como presumo que foi escrito por outra pessoa?
Xi'an

3
O requisito de calcular ocorre verdadeiramente quando se compara modelos (às vezes isso é chamado de evidência ). Ao considerar um único modelo, o numerador "é suficiente" para definir o posterior. No entanto, se você deseja calcular estimadores de pontos como expectativas posteriores ou quantis, rapidamente descobrirá que também precisa do denominador. p(D)
Xi'an

No momento, estamos realizando um workshop sobre constantes de normalização, onde você pode encontrar entradas interessantes para responder a esta pergunta.
Xi'an

Respostas:


7

Por que não se pode simplesmente calcular a distribuição posterior como numerador do lado direito e, em seguida, inferir essa constante de normalização exigindo que a integral sobre a distribuição posterior seja 1?

P(θ|D)=p(D|θ)P(θ)P(D).

P(D|θ)P(θ)θc

θcP(D|θ)P(θ)dθ=1θcP(D,θ)dθ=1cP(D)=1c=1P(D).

P(D)


Outra maneira de pensar sobre isso é: qual θé melhor? Você tem que olhar para todos eles!
Information_interchange

0

Eu tive a mesma pergunta. Este ótimo post explica muito bem.

Em poucas palavras. É intratável porque o denominador deve avaliar a probabilidade de TODOS os valores possíveis de 𝜃; na maioria dos casos interessantes, ALL é uma grande quantidade. Enquanto o numerador é para uma única realização de 𝜃.

Veja Eqs. 4-8 no post. Captura de tela do link:

Here is an screenshot of the link

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.