Intuição do Teorema de Bayes


22

Eu tenho tentado desenvolver um entendimento baseado na intuição do teorema de Bayes em termos de probabilidade anterior , posterior , probabilidade e marginal . Para isso, uso a seguinte equação: onde A representa uma hipótese ou crença e B representa dados ou evidências. Eu entendi o conceito de posterior - é uma entidade unificadora que combina a crença anterior e a probabilidade de um evento. O que eu não entendo é o que significa a probabilidade ? E por que o marginal

P(B|A)=P(A|B)P(B)P(A)
AB
probabilidade no denominador?
Após analisar alguns recursos, deparei-me com esta citação:

A probabilidade é o peso do evento dado pela ocorrência de ... é a probabilidade posterior do evento , dado que o evento ocorreu.BAP(B|A)BA

As duas declarações acima parecem idênticas para mim, apenas escritas de maneiras diferentes. Alguém pode explicar a diferença entre os dois?


4
Você tem um erro de digitação (ou um equívoco). deve ser a "hipótese ou crença" e deve ser o "dado ou evidência" em sua formulação. BA
gung - Restabelece Monica

1
veja a minha resposta em math.stackexchange.com/a/1943255/1505 que é como eu acabei entendendo intuitivamente
Lyndon Branca

Respostas:


27

Embora existam quatro componentes listados na lei de Bayes, prefiro pensar em termos de três componentes conceituais:

P(B|A)2=P(A|B)P(A)3P(B)1
  1. O anterior é o que você acreditava sobre antes de encontrar uma informação nova e relevante (ou seja, ). B A
  2. O posterior é o que você acredita (ou deveria, se for racional) sobre depois de encontrar uma informação nova e relevante. B
  3. O quociente da probabilidade dividida pela probabilidade marginal da nova peça de informação índices a informatividade das novas informações para as suas crenças sobre . B

19

Já existem várias respostas boas, mas talvez isso possa acrescentar algo novo ...

Eu sempre penso na regra de Bayes em termos de probabilidades de componentes, que podem ser entendidas geometricamente em termos dos eventos e B, como mostrado abaixo.AB

Conjuntos de Eventos

As probabilidades marginais e P ( B ) são dadas pelas áreas dos círculos correspondentes. Todos os resultados possíveis são representados por P ( A B ) = 1 , correspondendo ao conjunto de eventos " A ou B ". A probabilidade conjunta P ( A B ) corresponde ao evento " A e B ".P(A)P(B)P(AB)=1AB P(AB)AB

Nesta estrutura, as probabilidades condicionais no teorema de Bayes podem ser entendidas como razões de áreas. A probabilidade de dado B é a fração de B ocupada por A B , expressa em P ( A | B ) = P ( A B )ABBAB Da mesma forma, a probabilidade deBdadaAé a fração deAocupada porAB, ou seja, P(B|A)=P(AB)

P(A|B)=P(AB)P(B)
BAAAB
P(B|A)=P(AB)P(A)

O teorema de Bayes é realmente apenas uma conseqüência matemática das definições acima, que podem ser reapresentadas como Eu acho isso simétrico forma do teorema de Bayes para ser muito mais fácil de lembrar. Ou seja, a identidade vale independentemente de qual p ( A ) ou p ( B ) seja rotulado como "anterior" vs. "posterior".

P(B|A)P(A)=P(AB)=P(A|B)P(B)
p(A)p(B)

(Outra maneira de entender a discussão acima é dada na minha resposta a essa pergunta , de um ponto de vista mais "planilha contábil".)


9

@gung tem uma ótima resposta. Eu acrescentaria um exemplo para explicar a "iniciação" em um exemplo do mundo real.

Para uma melhor conexão com exemplos do mundo real, eu gostaria de mudar a notação, onde use para representar a hipótese (o A em sua equação) e use E para representar evidências. (o B na sua equação.)HAEB

Então a fórmula é

P(H|E)=P(E|H)P(H)P(E)

Observe que a mesma fórmula pode ser escrita como

P(H|E)P(E|H)P(H)

onde significa proporcional a e P ( E | H ) é a probabilidade e P ( H ) é a anterior . Esta equação significa que o posterior será maior, se o lado direito da equação maior. E você pode pensar que P ( E ) é uma constante de normalização para tornar o número em probabilidade (a razão pela qual digo que é uma constante é porque a evidência E já é fornecida).P(E|H)P(H)P(E)E

Para um exemplo do mundo real, suponha que estamos fazendo alguma detecção de fraude nas transações com cartão de crédito. Então a hipótese seria onde representar que a transação é normal ou fraudulenta. (Eu escolhi um caso extremamente desequilibrado para mostrar a intuição).H{0,1}

Pelo conhecimento do domínio, sabemos que a maioria das transações seria normal, apenas muito poucas são fraudulentas. Vamos supor que um especialista nos disse que há em 1000 seria fraude. Então, podemos dizer que o anterior é P ( H = 1 ) = 0,001 e P ( H = 0 ) = 0,999 .11000P(H=1)=0.001P(H=0)=0.999

O objetivo final é calcular que significa que queremos saber se uma transação é uma fraude que não se baseia nas evidências além das anteriores . Se você olhar para o lado direito da equação, decomporemos em probabilidade e anterior .P(H|E)

Onde já explicamos o que é anterior , aqui explicamos o que é probabilidade. Suponha que temos dois tipos de provas, que representam, se estamos vendo localização geográfica normal ou estranho da transação.E{0,1}

P(E=1|H=0)P(E=1|H=1)

E=1


P(H=0)0.999P(H=1)=0.001

1

Observe que a regra de Bayes é

P(a|b)=P(b,a)P(b)=P(b,a)P(b)P(a)P(a)

Observe a proporção

P(b,a)P(b)P(a).

BAP(b,a)=P(b)P(a)

Curiosamente, o log dessa proporção também está presente em informações mútuas:

I(A|B)=a,bP(a,b)logP(b,a)P(b)P(a)


0

P(A,B)

probabilidade = proporções de linha posterior = proporções de coluna

O anterior e o marginal são definidos analogicamente, mas com base em "totais" em vez de em uma coluna específica

marginal = proporções totais da linha anterior = proporções totais da coluna

Acho que isso me ajuda.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.