Por que dividir o denominador no Teorema de Bayes?


23

(Sou novato em estatísticas. Sou matemático e programador e estou tentando criar algo como um ingênuo filtro bayesiano de spam.)

Eu notei em muitos lugares que as pessoas tendem a quebrar o denominador na equação do Teorema de Bayes. Então, em vez disso:

P(UMA|B)P(B)P(UMA)

Somos apresentados a isso:

P(UMA|B)P(B)P(UMA|B)P(B)+P(UMA|¬B)P(¬B)

Você pode ver que esta convenção é usada neste artigo da Wikipedia e nesta publicação detalhada de Tim Peters.

Estou perplexo com isso. Por que o denominador é dividido dessa maneira? Como isso ajuda as coisas? O que há de tão complicado no cálculo de , que no caso de filtros de spam seria ?P(UMA)The probability that the word "cheese" appears in an email, regardless of whether it's spam or not


Suspeito que a resposta seja específica do domínio (ou seja, específica para filtros de spam). Se você pode calcular os componentes P (A | B), etc, deve poder calcular o P (A) mais simples, conforme indicado. Ou, talvez a resposta está relacionada com a pedagogia para que os leitores a entender a relação entre P (A) e sua decomposição em termos de P (A | B), P (B) etc.

1
Não tenho uma resposta forte, mas posso dizer que cometi erros estúpidos em testes nos quais poderia simplesmente conectar dados no denominador explícito, mas pensei que sabia que P (A) e estava errado.
Wayne

Respostas:


16

A resposta curta para sua pergunta é: "na maioria das vezes não sabemos o que é P (queijo), e geralmente é (relativamente) difícil de calcular".

A resposta mais longa por que a regra / teorema de Bayes é normalmente declarada da maneira que você escreveu é porque, nos problemas bayesianos, temos - sentados no colo - uma distribuição prévia (o P (B) acima) e a probabilidade (o P (A | B), P (A | notB) acima) e é uma questão relativamente simples de multiplicação calcular o posterior (o P (B | A)). Esforçar-se para reexpressar P (A) em sua forma resumida é um esforço que poderia ser gasto em outro lugar.

Pode não parecer tão complicado no contexto de um email porque, como você observou com razão, é apenas P (queijo), certo? O problema é que, com problemas bayesianos mais envolvidos no campo de batalha, o denominador é uma integral sem graça, que pode ou não ter uma solução em forma fechada. De fato, às vezes precisamos de métodos sofisticados de Monte Carlo apenas para aproximar a integral e agitar os números pode ser uma verdadeira dor de cabeça.

Mas, mais ao ponto, geralmente nem nos importamos com o que é P (queijo). Lembre-se de que estamos tentando aprimorar nossa opinião sobre se um email é ou não spam e não poderíamos nos importar menos com a distribuição marginal dos dados (o P (A), acima). De qualquer forma, é apenas uma constante de normalização, que não depende do parâmetro; o ato da soma apaga qualquer informação que tivéssemos sobre o parâmetro. A constante é um incômodo para calcular e, em última análise, é irrelevante quando se trata de zerar nossas crenças sobre se o spam do email é ou não. Às vezes, somos obrigados a calculá-lo; nesse caso, a maneira mais rápida de fazê-lo é com as informações que já temos: a prévia e a probabilidade.


Alguém poderia fornecer e exemplo de 'uma integral sem graça, que pode ou não ter uma solução em formato fechado', que seria usada em algum problema?
PaulG

8

Uma razão para usar a regra de probabilidade total é que geralmente lidamos com as probabilidades dos componentes nessa expressão e é fácil encontrar a probabilidade marginal simplesmente inserindo os valores. Para uma ilustração disso, consulte o seguinte exemplo na Wikipedia:

Outra razão é reconhecer formas equivalentes da Regra de Bayes, manipulando essa expressão. Por exemplo:

P(B|UMA)=P(UMA|B)P(B)P(UMA|B)P(B)+P(UMA|¬B)P(¬B)

Divida pelo RHS pelo numerador:

P(B|UMA)=11+P(UMA|¬B)P(UMA|B)P(¬B)P(B)

Qual é uma boa forma equivalente à Regra de Bayes, tornada ainda mais fácil subtraindo isso da expressão original para obter:

P(¬B|UMA)P(B|UMA)=P(UMA|¬B)P(UMA|B)P(¬B)P(B)

Esta é a Regra de Bayes, declarada em termos de Odds, ou seja, odds posteriores contra B = fator Bayes contra B vezes as odds anteriores contra B. (Ou você pode invertê-lo para obter uma expressão em termos de odds para B.) O fator Bayes é a proporção das probabilidades de seus modelos. Dado que não temos certeza sobre o mecanismo subjacente de geração de dados, observamos os dados e atualizamos nossas crenças.

Não tenho certeza se você acha isso útil, mas espero que não seja desconcertante; obviamente, você deve trabalhar com a expressão que funciona melhor para o seu cenário. Talvez alguém possa entrar com razões ainda melhores.


Você pode dar um passo adiante e obter registros. Em seguida, tem razão de log-posterior = razão de log-prévio + rácio de probabilidade logarítmica
probabilityislogic

6

P(UMA)

P(UMA)P(UMA|B)BP(UMA|B)P(UMA|¬B)B¬BP(UMA|B)P(UMA|¬B)P(B)P(¬B)

P(UMA)=P(UMA|B)P(B)+P(UMA|¬B)P(¬B)
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.