Probabilidade versus distribuição condicional para análise bayesiana


11

Podemos escrever o teorema de Bayes como

p(θ|x)=f(X|θ)p(θ)θf(X|θ)p(θ)dθ

onde é o posterior, é a distribuição condicional e é o anterior.p(θ|x)f(X|θ)p(θ)

ou

p(θ|x)=L(θ|x)p(θ)θL(θ|x)p(θ)dθ

onde é o posterior, é a função de probabilidade e é o anterior.p(θ|x)L(θ|x)p(θ)

Minha pergunta é

  1. Por que a análise bayesiana é feita usando a função de probabilidade e não a distribuição condicional?
  2. Você pode dizer em palavras qual é a diferença entre a probabilidade e a distribuição condicional? Eu sei que a probabilidade não é uma distribuição de probabilidade e .L(θ|x)f(X|θ)

1
Não há diferença! A probabilidade é a distribuição condicional , bem, é proporcional a, que é tudo o que importa. f(X|θ)
Kjetil b halvorsen

O parâmetro anterior possui densidade . se a realização de tem valor enquanto é o valor observado de uma variável aleatória , então o valor da função de probabilidade é precisamente , o valor da densidade condicional de . A diferença é que para todas as realizações de . No entanto, em função deΘpΘ(θ)ΘθxXL(θx) f(xθ)fXΘ(xΘ=θ)X
fXΘ(xΘ=θ)dx=1
Θθ(e fixo ), não é uma densidade:xL(θx)
L(θx)dθ1
Dilip Sarwate

Respostas:


10

Suponha que você tenha variáveis ​​aleatórias (cujos valores serão observados em seu experimento) que são condicionalmente independentes, considerando que , com densidades condicionais , para . Este é o seu modelo estatístico (postulado) estatístico (condicional) e as densidades condicionais expressam, para cada valor possível do parâmetro (aleatório) , sua incerteza sobre os valores dos 's antes de você ter acesso a qualquer dados reais. Com a ajuda das densidades condicionais, você pode, por exemplo, calcular probabilidades condicionais como X1,,Xnf X iΘ (Θ=θfXiΘ(θ)i=1,,nθΘXi

P{X1B1,,XnBnΘ=θ}=B1××Bni=1nfXiΘ(xiθ)dx1dxn,
para cada .θ

Depois de ter acesso a uma amostra real de valores (realizações) dos que foram observados em uma execução de seu experimento, a situação muda: não há mais incerteza sobre os observáveis . Suponha que o aleatório assuma valores em algum espaço de parâmetro . Agora, você define, para os valores conhecidos (fixos) uma função por Observe que , conhecida como "função de verossimilhança", é uma função de(x1,,xn)XiX1,,XnΘΠ(x1,,xn)

Lx1,,xn:ΠR
Lx1,,xn(θ)=i=1nfXiΘ(xiθ).
Lx1,,xnθ . Nesta situação "depois de ter dados", a probabilidade contém, para o modelo condicional específico que estamos considerando, todas as informações sobre o parâmetro contido nesta amostra específica . De fato, acontece que é uma estatística suficiente para .Lx1,,xnΘ(x1,,xn)Lx1,,xnΘ

Respondendo à sua pergunta, para entender as diferenças entre os conceitos de densidade condicional e probabilidade, lembre-se de suas definições matemáticas (que são claramente diferentes: são objetos matemáticos diferentes, com propriedades diferentes) e lembre-se de que a densidade condicional é um "pré" -sample "objeto / conceito, enquanto a probabilidade é" after-sample ". Espero que tudo isso também ajude você a responder por que a inferência bayesiana (usando sua maneira de colocá-la, o que eu não acho ideal) é feita "usando a função de probabilidade e não a distribuição condicional": o objetivo da inferência bayesiana é para calcular a distribuição posterior e, para isso, condicionamos os dados observados (conhecidos).


Eu acho que o Zen está correto quando ele diz que a probabilidade e a probabilidade condicional são diferentes. Na função de verossimilhança θ não é uma variável aleatória, portanto é diferente da probabilidade condicional.
Martine

1

Proporcionalidade é usada para simplificar a análise

A análise bayesiana é geralmente feita através de uma afirmação ainda mais simples do teorema de Bayes, onde trabalhamos apenas em termos de proporcionalidade em relação ao parâmetro de interesse. Para um modelo IID padrão com densidade de amostragem , podemos expressar isso como:f(X|θ)

p(θ|x)Lx(θ)p(θ)Lx(θ)i=1nf(xi|θ).

Esta declaração de atualização bayesiana funciona em termos de proporcionalidade em relação ao parâmetro . Utiliza duas simplificações de proporcionalidade: uma no uso da função de verossimilhança (proporcional à densidade de amostragem) e outra na posterior (proporcional ao produto de verossimilhança e anterior). Como a posterior é uma função de densidade (no caso contínuo), a regra normativa define a constante multiplicativa necessária para produzir uma densidade válida (ou seja, para integrá-la a uma).θ

Esse método de uso da proporcionalidade tem a vantagem de nos permitir ignorar quaisquer elementos multiplicativos das funções que não dependem do parâmetro . Isso tende a simplificar o problema, permitindo-nos varrer partes desnecessárias da matemática e obter instruções mais simples do mecanismo de atualização. Este não é um requisito matemático (já que a regra de Bayes também funciona em sua forma não proporcional), mas simplifica as coisas para nossos minúsculos cérebros animais.θ

Um exemplo aplicado: considere um modelo de IID com dados observados . Para facilitar nossa análise, definimos as estatísticas e , que são os dois primeiros momentos de amostra. Para este modelo, temos densidade de amostragem:X1,...,XnIID N(θ,1)x¯=1ni=1nxix¯¯=1ni=1nxi2

f(x|θ)=i=1nf(xi|θ)=i=1nN(xi|θ,1)=i=1n12πexp(12(xiθ)2)=(2π)n/2exp(12i=1n(xiθ)2).=(2π)n/2exp(n2(θ22x¯θ+x¯¯))=(2π)n/2exp(nx¯¯2)exp(n2(θ22x¯θ))

Agora, podemos trabalhar diretamente com essa densidade de amostragem, se quisermos. Mas observe que os dois primeiros termos dessa densidade são constantes multiplicativas que não dependem de . É chato ter que acompanhar esses termos, então vamos nos livrar deles, para que tenhamos a função de probabilidade:θ

Lx(θ)=exp(n2(θ22x¯θ)).

Isso simplifica um pouco as coisas, já que não precisamos acompanhar um termo adicional. Agora, poderíamos aplicar a regra de Bayes usando sua versão completa da equação, incluindo o denominador integral. Mas, novamente, isso exige que controlemos outra constante multiplicativa irritante que não depende de (mais irritante porque precisamos resolver uma integral para obtê-la). Então, vamos aplicar a regra de Bayes em sua forma proporcional. Usando o conjugado anterior , com algum parâmetro de precisão conhecido , obtemos o seguinte resultado ( preenchendo o quadrado ):θθN(0,λ0)λ0>0

p(θ|x)Lx(θ)p(θ)=exp(n2(θ22x¯θ))N(θ|0,λ0)exp(n2(θ22x¯θ))exp(λ02θ2)=exp(12(nθ22nx¯θ+λ0θ2))=exp(12((n+λ0)θ22nx¯θ))=exp(n+λ02(θ22nx¯n+λ0θ))exp(n+λ02(θnn+λ0x¯)2)N(θ|nn+λ0x¯,n+λ0).

Assim, a partir deste trabalho, podemos ver que a distribuição posterior é proporcional a uma densidade normal. Como o posterior deve ser uma densidade, isso implica que o posterior é a densidade normal:

p(θ|x)=N(θ|nn+λ0x¯,n+λ0).

Portanto, vemos que a posteriori o parâmetro é normalmente distribuído com a média e a variação posteriores dadas por:θ

E(θ|x)=nn+λ0x¯V(θ|x)=1n+λ0.

Agora, a distribuição posterior que derivamos tem uma constante de integração na sua frente (o que podemos encontrar facilmente observando a forma da distribuição normal ). Mas observe que não precisamos nos preocupar com essa constante multiplicativa - todo o nosso trabalho removeu (ou trouxe) constantes multiplicativas sempre que isso simplificou a matemática. O mesmo resultado pode ser obtido mantendo o controle das constantes multiplicativas, mas isso é muito mais confuso.


0

Acho que a resposta do Zen realmente mostra como conceitualmente a função de probabilidade e a densidade conjunta dos valores das variáveis ​​aleatórias diferem. Ainda matematicamente como uma função de x θ eles são os mesmos e, nesse sentido, a probabilidade pode ser vista como uma densidade de probabilidade. A diferença que você aponta na fórmula para a distribuição posterior de Bayes é apenas uma diferença notacional. Mas a sutileza da diferença é bem explicada na resposta de Zen.i

Esse problema surgiu em outras questões discutidas neste site sobre a função de probabilidade. Também outros comentários de kjetil e Dilip parecem apoiar o que estou dizendo.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.