Intuição da constante de normalização bayesiana


8

No problema de triagem de mamografia comumente mencionado, com uma probabilidade de triagem de 80%, um valor anterior a 10% e uma taxa de falsos positivos de 50%, ou suas variantes, é fácil explicar que a probabilidade condicional posterior de uma triagem positiva indicar um câncer está presente é de apenas 15%. Isso é mostrado com mais facilidade por contagens, com n = 1000, casos de câncer verdadeiros = 100, cânceres detectados = 80 e falsos positivos = 450. Então a probabilidade de uma triagem positiva indicar um câncer presente é verdadeiros positivos / (verdadeiros positivos + falsos positivos) ou 80 / (100 + 450) = 0,145 ou 15%.

A intuição é que os verdadeiros positivos são condicionados à soma dos verdadeiros e falsos positivos, porque a soma dos verdadeiros e falsos positivos constitui um subconjunto de todos os resultados. Isso ocorre porque os falsos negativos e os verdadeiros negativos são excluídos do cálculo e, portanto, o conjunto condicional é um subconjunto.

Se mudarmos o problema para o caso contínuo com uma probabilidade binomial e um beta anterior, a constante de normalização se tornará integral, como no verdadeiro termo positivo (p = proporção)

01(nx)px(1p)nxΓ(a+b)Γ(a)Γ(b)pa1(1p)b1dp

e um termo semelhante para os falsos positivos.

O que não está claro, no entanto, é como reafirmar a idéia de um subconjunto no caso contínuo, e não consigo encontrar ninguém que faça isso. Em vez disso, encontra-se a linguagem em que 1) essa integral fornece a constante para fazer o cálculo necessário para ter uma distribuição de probabilidade definida no intervalo [0, 1] ou 2) que a proporcionalidade é invocada e o valor da integral não é necessário para encontre o posterior, especialmente usando o MCMC, ou 3) a integral é a probabilidade da evidência. Essa última explicação parece mais próxima da idéia de um subconjunto, mas não está clara e explicitamente conectada.

Estou escrevendo uma introdução intuitiva ao teorema de Bayes e quero continuar a idéia intuitiva de um subconjunto para a probabilidade condicional que define o posterior. Então, preciso de uma linguagem para explicar como essa integral é apenas a reafirmação contínua do subconjunto no caso dos números discretos.

Alguma sugestão?


Respostas:


4

Eu precisava fazer isso para um curso que estou preparando, então criei este site de demonstração: Uma demonstração do teorema de Bayes como "selecionando um subconjunto" no caso binomial (certifique-se de ocultar as barras de ferramentas, no canto inferior direito). Basicamente, se você mostrar a distribuição conjunta - que é apenas - poderá ver os "subconjuntos" da distribuição conjunta que você precisa selecionar, quais são esses valores que correspondem a (o que você observou).p(yθ)p(θ)θY=y

O código fonte dessa página pode ser encontrado aqui: Rmarkdown source for page .

(Eu usei para a probabilidade binomial em vez de porque parece confuso ...)θpp(p)


2

Além das interpretações mencionadas, você pode pensar na constante de normalização como o valor da distribuição preditiva anterior no x observado. Se o preditivo anterior for discreto, essa é uma massa de probabilidade e, se o preditivo anterior for contínuo, será uma densidade de probabilidade.

A previsão preditiva anterior é no caso contínuo é

p(x)=Θp(θ)p(x|θ)

Qual é uma distribuição que atribui massa / densidade de probabilidade aos resultados no espaço amostral. Então, quando x é observado, ele é fixado no x observado e se encaixa no denominador do teorema de Bayes.

No entanto, observe que, com distribuições contínuas, não há restrição matemática no valor da densidade atribuído a um conjunto com a medida zero (ou seja, probabilidade zero), e como qualquer ponto específico de uma distribuição contínua tem de fato a medida zero, então tecnicamente o valor da densidade no preditivo anterior em exatamente x pode ser definido arbitrariamente. Mas, tirando isso, acho que essa maneira de visualizar a constante de normalização é bastante intuitiva.

Você pode ler mais aqui . (Deixe-me saber se você não tem acesso) Isso também, que é um pouco mais moderno.


1

O gráfico tridimensional de Richard foi muito útil. O que eu preciso, no entanto, é algo que eu possa colar como gráfico em um manuscrito. Após algumas pesquisas, localizei esta imagem de Westfall e Henning, Entendendo os métodos estatísticos avançados , Chapman & Hall / CRC, 2013.

insira a descrição da imagem aqui

A nova identificação dos eixos como a probabilidade binomial p à esquerda e o número de sucessos y à direita ilustra uma distribuição binomial, e a face da distribuição conjunta é a distribuição marginal a ser integrada.

Além disso, essa distribuição conjunta me fez perceber que nosso vocabulário para isso está ausente. Usamos o termo “marginal” para o subconjunto relevante para a constante de normalização, porque esse vocabulário vem de uma tabela de contingência bidirecional com dados discretos, em que a soma das probabilidades é escrita nas margens da tabela. Continuamos a usar o mesmo vocabulário no caso contínuo de distribuição conjunta, mas não é descritivo.

Mas o número de Westfall e Henning deixa claro que, para a constante de normalização, estamos integrando uma “fatia” da distribuição conjunta para o valor de y, o número de sucessos no caso binomial. "Fatia" é muito mais claro que marginal e esse número deixa instantaneamente claro qual é o subconjunto relevante para integração.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.