Deixe-me primeiro explicar o que é um conjugado anterior . Vou então explicar as análises bayesianas usando seu exemplo específico. As estatísticas bayesianas envolvem as seguintes etapas:
- Defina a distribuição anterior que incorpora suas crenças subjetivas sobre um parâmetro (no seu exemplo, o parâmetro de interesse é a proporção de canhotos). O prior pode ser "não informativo" ou "informativo" (mas não existe um prior que não tenha informações, consulte a discussão aqui ).
- Reúna dados.
- Atualize sua distribuição anterior com os dados usando o teorema de Bayes para obter uma distribuição posterior. A distribuição posterior é uma distribuição de probabilidade que representa suas crenças atualizadas sobre o parâmetro depois de ver os dados.
- Analise a distribuição posterior e resuma-a (média, mediana, sd, quantis, ...).
A base de todas as estatísticas bayesianas é o teorema de Bayes, que é
posterior∝prior×likelihood
No seu caso, a probabilidade é binomial. Se as distribuições anterior e posterior estão na mesma família, as anteriores e posteriores são chamadas de distribuições conjugadas . A distribuição beta é um conjugado anterior porque o posterior também é uma distribuição beta. Dizemos que a distribuição beta é a família conjugada para a probabilidade binomial. As análises conjugadas são convenientes, mas raramente ocorrem em problemas do mundo real. Na maioria dos casos, a distribuição posterior deve ser encontrada numericamente via MCMC (usando Stan, WinBUGS, OpenBUGS, JAGS, PyMC ou algum outro programa).
Se a distribuição de probabilidade anterior não se integra a 1, ela é chamada de prioritária imprópria ; se ela se integra a 1, é chamada de prévia adequada . Na maioria dos casos, um prévio inadequado não representa um grande problema para as análises bayesianas. A distribuição posterior deve ser correta, ou seja, a posterior deve integrar-se a 1.
Essas regras práticas seguem diretamente a natureza do procedimento de análise bayesiano:
- Se o prior não é informativo, o posterior é muito determinado pelos dados (o posterior é orientado por dados)
- Se o prior é informativo, o posterior é uma mistura do prior e dos dados
- Quanto mais informativo o anterior, mais dados você precisa "mudar" suas crenças, por assim dizer, porque o posterior é muito impulsionado pelas informações anteriores
- Se você tiver muitos dados, eles dominarão a distribuição posterior (eles sobrecarregarão a anterior)
Uma excelente visão geral de alguns possíveis antecedentes "informativos" e "não informativos" para a distribuição beta pode ser encontrada neste post .
Digamos que sua versão beta anterior seja que é a proporção de canhotos. Para especificar os parâmetros anteriores e , é útil conhecer a média e a variação da distribuição beta (por exemplo, se você deseja que o seu anterior tenha uma certa média e variação). A média é . Assim, sempre que , a média é . A variação da distribuição beta é . Agora, o mais conveniente é que você possa pensar em eBeta(πLH|α,β)πLHαβπ¯LH=α/(α+β)α=β0.5αβ(α+β)2(α+β+1)αβcomo dados (pseudo-) observados anteriormente, ou seja, canhotos e destros de uma amostra (pseudo-) de tamanho . A distribuição é uniforme (todos os valores de são igualmente prováveis) e equivale a ter observado duas pessoas fora dos quais um é canhoto e outro é destro.αβneq=α+βBeta(πLH|α=1,β=1)πLH
A distribuição beta posterior é simplesmente que é o tamanho da amostra e é o número de canhotos na amostra. A média posterior de é, portanto, . Portanto, para encontrar os parâmetros da distribuição beta posterior, basta adicionar canhotos a e destros a . A variação posterior éBeta(z+α,N−z+β)NzπLH(z+α)/(N+α+β)zαN−zβ(z+α)(N−z+β)(N+α+β)2(N+α+β+1). Observe que um prior altamente informativo também leva a uma variação menor da distribuição posterior (os gráficos abaixo ilustram bem o ponto).
No seu caso, e e seu prior é o uniforme que não é informativo, então . Sua distribuição posterior é, portanto, . A média posterior é . Aqui está um gráfico que mostra o anterior, a probabilidade dos dados e o posteriorz=2N=18α=β=1Beta(3,17)π¯LH=3/(3+17)=0.15
Você vê que, como sua distribuição anterior não é informativa, sua distribuição posterior é inteiramente orientada pelos dados. Também é plotado o maior intervalo de densidade (IDH) para a distribuição posterior. Imagine que você coloca sua distribuição posterior em uma bacia 2D e começa a encher água até 95% da distribuição estar acima da linha d'água. Os pontos em que a linha d'água se cruza com a distribuição posterior constituem o IDH de 95%. Todo ponto dentro do IDH tem uma probabilidade mais alta do que qualquer ponto fora dele. Além disso, o IDH sempre inclui o pico da distribuição posterior (ou seja, o modo). O IDH é diferente de um intervalo de 95% de cauda igual e credível, onde são excluídos 2,5% de cada cauda da parte posterior (veja aqui ).
Para sua segunda tarefa, você deve incorporar as informações de que 5 a 20% da população são canhotos. Existem várias maneiras de fazer isso. A maneira mais fácil é dizer que a distribuição beta anterior deve ter uma média de que é a média de e . Mas como escolher e da distribuição beta anterior? Primeiro, você deseja que sua média da distribuição anterior seja de uma pseudo-amostra de tamanho de amostra equivalente . De maneira mais geral, se você deseja que seu anterior tenha um médio com um tamanho de pseudo-amostra , o correspondente0.1250.050.2αβ0.125neqmneqαe valores são: e . Tudo o que você precisa fazer agora é escolher o tamanho da pseudo-amostra que determina o quão confiante você está em relação às suas informações anteriores. Digamos que você tenha muita certeza sobre suas informações anteriores e defina . Os parâmetros da sua distribuição anterior são e . A distribuição posterior é com uma média de cerca de que é praticamente a mesma que a média anterior deβα=mneqβ=(1−m)neqneqneq=1000α=0.125⋅1000=125β=(1−0.125)⋅1000=875Beta(127,891)0.1250.125. As informações anteriores estão dominando o posterior (veja o gráfico a seguir):
Se você tiver menos certeza sobre as informações anteriores, poderá definir o da sua pseudo-amostra como, digamos, , que gera e para sua distribuição beta anterior. A distribuição posterior é com uma média de cerca de . A média posterior agora está próxima da média dos seus dados ( ) porque os dados superam os anteriores. Aqui está o gráfico mostrando a situação:neq10α=1.25β=8.75Beta(3.25,24.75)0.1160.111
Um método mais avançado de incorporar as informações anteriores seria dizer que o quantil da sua distribuição beta anterior deve ser de cerca de e o quantil de deve ser de cerca de . Isso equivale a dizer que você tem 95% de certeza de que a proporção de canhotos na população está entre 5% e 20%. A função no pacote R calcula os valores e correspondentes de uma distribuição beta correspondente a esses quantis. O código é0.0250.050.9750.2beta.select
LearnBayes
αβ
library(LearnBayes)
quantile1=list(p=.025, x=0.05) # the 2.5% quantile should be 0.05
quantile2=list(p=.975, x=0.2) # the 97.5% quantile should be 0.2
beta.select(quantile1, quantile2)
[1] 7.61 59.13
Parece que uma distribuição beta com os parâmetros e possui as propriedades desejadas. A média anterior é que está próximo da média dos seus dados ( ). Novamente, essa distribuição anterior incorpora as informações de uma pseudo-amostra com um tamanho de amostra equivalente de cerca de . A distribuição posterior é com uma média de que é comparável à média da análise anterior usando um altamente informativo anterior. Aqui está o gráfico correspondente:α=7.61β=59.137.61/(7.61+59.13)≈0.1140.111neq≈7.61+59.13≈66.74Beta(9.61,75.13)0.113Beta(125,875)
Veja também esta referência para uma breve, mas com boa visão geral do raciocínio bayesiano e análise simples. Uma introdução mais longa para análises conjugadas, especialmente para dados binomiais, pode ser encontrada aqui . Uma introdução geral ao pensamento bayesiano pode ser encontrada aqui . Mais slides sobre aspectos das estatísticas baysianas estão aqui .