Como um bayesiano atualiza sua crença quando algo com probabilidade 0 aconteceu?


9

Defina X:= "a moeda tem probabilidade 1 de pousar cabeças" Suponha que alguém tenha a crença anterior: P(X)=1 . No entanto, depois de jogar a moeda, uma vez que ela cai na coroa ( E:= "coroa caiu na moeda"). Como um bayesiano deve atualizar suas crenças para permanecer coerente? P(X|E) é indefinido, pois P(E)=0 . No entanto, parece-me que, como suas crenças anteriores são bastante implausíveis (é claro que a probabilidade 0 não significa impossível), ele deveria, de alguma forma, ser capaz de atualizar sua crença de acordo com alguma regra.

Este é apenas um caso patológico em que a atualização bayesiana não funciona ou não conheço uma solução para esse problema?


2
Um exemplo pode ser que ele percebe que é uma mulher.
Nick Cox

6
Penso que esta questão é muito mais abrangente do que a análise bayesiana. Não está realmente perguntando o que se deve fazer diante da evidência de que suas suposições estão incorretas? Eu hesitaria em chamar essas situações de "patológicas" porque elas acontecem o tempo todo. O que seria verdadeiramente patológico são situações em que as pessoas se recusam a mudar suas suposições (ou crenças) diante de evidências incontestáveis. (Essas pessoas são geralmente chamados de "políticos" e não "Bayesians" :-).)
whuber

@whuber Sou a favor de zombar dos políticos (do tipo errado), mas a ciência também não é imune. Planck observou em sua Autobiografia que uma nova teoria às vezes só triunfa quando a geração mais velha que se recusou a levá-la a sério morreu.
Nick Cox

@ Nick, tenho certeza que você entende que a situação na ciência é mais complexa do que isso. (Sim, a situação política também é mais complexa ...). Meio século atrás, Thomas Kuhn estava entre os primeiros que apreciaram isso e elucidaram as razões mais profundas.
whuber

2
@whuber concordou. Bons cientistas mudam de idéia rapidamente diante da lógica e das evidências, e muitos de nós jogam fora muitas idéias ruins antes mesmo de tentar publicá-las. (Detalhe minucioso: foi o livro mais famoso de Kuhn onde acho que encontrei pela primeira vez a referência de Planck.) #
224 Nick Cox

Respostas:


5

Qualquer probabilidade posterior é válida neste caso

Essa é uma pergunta interessante, que entra no território dos fundamentos da probabilidade. Existem algumas abordagens possíveis aqui, mas por razões que irei elaborar em breve, a abordagem preferida é fornecer uma definição mais ampla de probabilidade condicional que seja análoga à sua definição ao lidar com variáveis ​​aleatórias contínuas. (Detalhes deste método são mostrados abaixo.) Nesse caso em particular, isso leva à conclusão de que o bayesiano pode sustentar qualquer crença posterior sobre X , e isso gera um conjunto coerente de crenças (apesar de terem observado um evento em que acreditam ter probabilidade zero).

A vantagem dessa abordagem é que ela fornece uma distribuição posterior bem definida e permite que o bayesiano atualize suas crenças condicionadas à observação de um evento que foi estipulado para ocorrer com probabilidade zero. O posterior é atualizado essencialmente arbitrariamente (qualquer probabilidade posterior é igualmente coerente), mas essa flexibilidade não é surpreendente, dado o que ocorreu. Nesse caso, diferentes bayesianos com as mesmas crenças anteriores poderiam legitimamente chegar a diferentes conclusões posteriores, devido ao fato de todos terem observado um evento com probabilidade zero a priori .


Probabilidade condicional para variáveis ​​aleatórias contínuas: Quando estamos lidando com variáveis ​​aleatórias contínuas, a função de probabilidade condicional é definida através do derivado de Radon-Nikodym e requer essencialmente que a função satisfaça a lei da probabilidade conjunta. Se X e E fossem variáveis ​​aleatórias contínuas (em vez de eventos discretos) em um espaço de probabilidade (Ω,G,P) , definiríamos a função de probabilidade condicional p(x|e) como qualquer função mensurável não negativa que satisfaça a integral equação:

p(x)=Ep(x|e) dP(e)for all xXG.

Como p(x) também é definido por meio do derivado Radon-Nikodym, isso significa implicitamente que p(x|e) pode ser qualquer função mensurável não negativa que satisfaça a equação integral:

P(XA)=AEp(x|e) dP(e) dxfor all AG.

Isso fornece uma solução não exclusiva para a função de probabilidade condicional, embora, na prática, toda solução seja "quase certamente" equivalente (ou seja, elas diferem apenas em um conjunto de resultados com probabilidade zero); portanto, não há problema com a não exclusividade. .

P(X|E)P(X|E¯)

P(X)=P(X|E)×P(E)+P(X|E¯)×(1P(E)).

P(X)=1P(E|X)=0P(E)=0

1=P(X|E)×0+P(X|E¯)×1.

P(X|E¯)=10P(X|E)1P(X|E)


Por que essa abordagem faz mais sentido: É inteiramente possível que uma análise bayesiana envolva a observação de um evento discreto com probabilidade zero estipulada na distribuição anterior. Por exemplo, em um modelo padrão de lançamento de moeda, estipulamos uma distribuição de Bernoulli para o resultado cara / coroa, mas é possível que a moeda pare em sua borda (portanto, não é cara nem coroa). O cérebro não deve explodir nesse caso, e, portanto, cabe ao raciocínio bayesiano ter uma maneira bem definida de proceder nesse caso.

A principal vantagem da abordagem que descrevi é que ela sempre leva a pelo menos um valor permitido para a probabilidade posterior (ou seja, a probabilidade posterior é bem definida ). A probabilidade posterior não é definida de maneira única, mas isso é uma conseqüência natural do fato de que existem vários valores que são igualmente coerentes com a observação de amostragem com probabilidade zero. Essa abordagem significa que o bayesiano é livre para estipular qualquer probabilidade posterior, e isso é tão coerente quanto qualquer outra. (Lembre-se de que, quando dizemos "coerente" aqui, estamos falando de coerência com uma crença anterior que estipulava probabilidade zero para um evento discreto que realmente aconteceu; portanto, a coerência com isso não é muito alta!)

Há outro benefício importante nessa abordagem : permitir ao bayesiano atualizar suas crenças em resposta à observação de um evento que teve probabilidade de amostragem zero sob o anterior e, em particular, o bayesiano agora pode revisar suas crenças. para que eles não atribuam mais probabilidade zero a esse evento . No exemplo que você dá, o bayesiano tinha uma crença anterior de que é verdade quase certamente, e depois observou um evento com probabilidade de amostragem zero condicional a esse evento. Agora, o bayesiano está livre para atualizar sua crença em uma probabilidade posterior para que não seja uma (e, portanto, uma probabilidade posterior correspondente paraXX ˉ XX¯isso não é zero). Então, em essência, o bayesiano agora pode dizer: "Oh, merda! Isso foi um prior bobo! Deixe-me atualizar minha crença nesse evento para que ele não ocorra mais com quase certeza!" Além disso, não se trata de uma mudança ad hoc , mas de uma atualização "coerente" legítima, feita sob o teorema de Bayes.


3

Existe uma suposição implícita em todo raciocínio, bayesiano ou não, de que sabemos tudo o que poderia acontecer e foi responsável por isso. Se algo acontecer que é impossível no modelo, significa apenas que essa suposição é falsa. A principal coisa a fazer é voltar e expandir o modelo e começar de novo. Pelo menos em uma estrutura bayesiana, esse processo é relativamente fácil de formalizar - em vez de inferência dentro de um único modelo, alguém faria inferência em um conjunto de modelos.

Em algum momento, nossa capacidade humana de aninhar modelos nos modelos deve acabar. Mesmo com ajuda automatizada (ou seja, computadores ou o que for), deve haver um limite superior à complexidade da "mãe de todos os modelos". Não tenho ideia do que fazer nessa circunstância, mas certamente estamos muito distantes disso, quando trabalhamos com modelos paramétricos típicos encontrados em aplicativos.


2

Isso está relacionado ao campo da lógica. em particular, uma declaração falsa implica todas as outras declarações, verdadeiras ou falsas. Em seu cenário é um statement.This falsos significa que podemos escrever para qualquer outra proposição . Por exemplo, temos (implica coroa) e também (implica também não coroa)!XXSSXEXEc

Isso também é consistente com a solução de Ben (defina o valor posterior para qualquer valor desejado). Obviamente, isso não é realmente útil em aplicativos. Pois estou bastante confiante de não precisar de nenhuma estrutura matemática para obter os resultados desejados.

O que isso significa é que não se deve incluir declarações falsas conhecidas em suas probabilidades anteriores. É exatamente o mesmo que não se deve usar declarações falsas sobre os dados. Em termos de lidar com questões do tipo "cisne negro", podemos lidar com isso conceitualmente, atribuindo uma chance pequena, mas diferente de zero, de que nossas "suposições de trabalho" estejam erradas. Se você chamar essa declaração de como "minhas suposições de trabalho estão corretas" e definir como anterior igual a . Existem algumas situações impossíveis sob a premissa de trabalho, o que significa que a probabilidade para alguns valores dos "dados" que existem na região "impossível"Awp(Aw)=1ϵp(dDimpossible|Aw)=0dDimpossiblequando as suposições de trabalho se mantiverem. Chame este evento . Isso também significa que . Assumimos que (isto é, dados "impossíveis" são possíveis se a suposição de trabalho estiver errada). E finalmente que .Q:=dDimpossiblep(Qc|Aw)=1p(Q|Aw)=1p(Q|Awc)=δ>0p(Qc|Awc)=1p(Q|Awc)=1δ

Agora temos dois cenários. A primeira é que os dados são "normais" (o que significa que é verdadeiro)Qc

p(Aw|Qc)=p(Aw)p(Qc|Aw)p(Aw)p(Qc|Aw)+p(Awc)p(Qc|Awc)=1ϵ1ϵ+ϵ(1δ)=1ϵ1δϵ>1ϵ

A segunda é que os dados são "impossíveis" (ou seja, é verdadeiro)Q

p(Aw|Q)=p(Aw)p(Q|Aw)p(Aw)p(Q|Aw)+p(Awc)p(Q|Awc)=00+ϵδ=0.

Agora, espero que isso mostre claramente que, se suas suposições forem satisfeitas e você já tiver uma probabilidade anterior muito alta, a posterior será pelo menos tão alta (e geralmente mais alta). Portanto, seja qual for o valor para usado para representar "basicamente impossível" antes de ver os dados, você deve usar um valor menor depois de ver as previsões confirmadas.ϵ

Ao fazer cálculos, supondo que não o desvie. Então você "absorve" nas informações anterioresp(Aw|Qc)=1Aw,Qc

Agora, e quando a coisa impossível acontece? Bem, então você precisa descompactar e alterar sua probabilidade e antes de acordo com o que estava errado com sua suposição.


1
Esta é uma resposta interessante (+1). Tomei a liberdade de fazer uma pequena correção para explicar o caso em que , que não foi excluído em suas condições antecedentes. Se você pretendeu impor a restrição para obter uma desigualdade estrita, edite de acordo. γ < 1γ=1γ<1
Ben - Restabelece Monica

Percebi que na minha resposta original. Como isso significa que a desigualdade deve ser estrita. δ > 0γ=1δδ>0
probabilityislogic
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.