Por que a densidade posterior é proporcional à função de probabilidade de tempos de densidade anteriores?


11

De acordo com o teorema de Bayes, . Mas, de acordo com meu texto econométrico, ele diz que . Por que é assim? Não entendo por que é ignorado.P ( θ | y ) P ( y | θ ) P ( θ ) P ( θ ) P ( y )P(y|θ)P(θ)=P(θ|y)P(y)P(θ|y)P(y|θ)P(θ)P(y)


11
Note que ele não diz que os dois são iguais, mas proporcional (até um factor, ou seja, )1/P(y)
jpmuc

4
y A ( x ) = c B ( x ) c x A ( x ) B ( x ) A ( x )P(y) não está sendo ignorado, mas tratado como uma constante, porque é uma função dos dados que são corrigidos para o problema em questão. Se onde é uma constante (o que não depende de ), podemos escrever que significa simplesmente que é uma constante (não especificada). Observe que os extremos de e ocorrem nos mesmos locais, para que coisas como estimativas de probabilidade máxima a posteriori (MAP ou MAPP) possam ser encontradas em sem a necessidade de conhecer (ou calcular) . yA(x)=cB(x)cxA(x)B(x) A(x)B(x)P(yθ)P(θ)P(y)A(x)B(x)A(x)B(x)P(yθ)P(θ)P(y)
Dilip Sarwate

Respostas:


14

Pr(y) , a probabilidade marginal de , não é "ignorada". É simplesmente constante. Dividir por tem o efeito de "redimensionar" os cálculos de a serem medidos como probabilidades apropriadas, isto é, em um intervalo . Sem esse dimensionamento, elas ainda são medidas relativas perfeitamente válidas , mas não estão restritas ao intervalo .P r ( y ) P r ( y | θ ) P ( θ ) [ 0 , 1 ]yPr(y)Pr(y|θ)P(θ)[0,1][0,1]

P r ( y ) = P r ( y | θ ) P r ( θ ) d θPr(y) geralmente é "deixado de fora" porque geralmente é difícil de avaliar e geralmente é conveniente o suficiente para executar indiretamente a integração via simulação.Pr(y)=Pr(y|θ)Pr(θ)dθ


11

Notar que

P(θ|y)=P(θ,y)P(y)=P(y|θ)P(θ)P(y).

Como você está interessado em calcular a densidade de , qualquer função que não dependa desse parâmetro - como - pode ser descartada. Isso lhe dáP ( y )θP(y)

P(θ|y)P(y|θ)P(θ).

A conseqüência do descarte de é que agora a densidade perdeu algumas propriedades, como a integração com 1, no domínio . Isso não é grande coisa, pois geralmente não se interessa em integrar funções de probabilidade, mas em maximizá-las. E quando você está maximizando uma função, multiplicando essa função por alguma constante (lembre-se de que, na abordagem bayesiana, os dados são fixos), não altera o que corresponde ao ponto máximo. Ele muda o valor da probabilidade máxima, mas, novamente, geralmente se interessa pelo posicionamento relativo de cada .P ( θ | y ) θ y θ θP(y)P(θ|y)θyθθ

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.