Exemplos simples do mundo real para o ensino de estatística bayesiana?


10

Eu gostaria de encontrar alguns "exemplos do mundo real" para o ensino de estatística bayesiana. A estatística bayesiana permite incorporar formalmente o conhecimento prévio em uma análise. Eu gostaria de dar aos alunos alguns exemplos simples do mundo real de pesquisadores que incorporam conhecimento prévio em suas análises, para que os alunos possam entender melhor a motivação do motivo pelo qual alguém pode querer usar as estatísticas bayesianas em primeiro lugar.

Você conhece alguns exemplos simples do mundo real, como estimar a média, proporção, regressão da população etc. em que os pesquisadores incorporam formalmente informações anteriores? Percebo que os bayesianos também podem usar priores "não informativos", mas estou particularmente interessado em exemplos reais em que os priores informativos (ou seja, informações prévias reais) são usados.


Eu acho que o QI é um bom exemplo.
hejseb

Não é estritamente uma resposta, mas quando você joga uma moeda três vezes e a cabeça sobe duas vezes, nenhum aluno acreditaria que essa cabeça era duas vezes mais provável que a coroa. Isso é bastante convincente, embora certamente não seja uma pesquisa real.
Bernhard

11
Você pode conferir esta resposta, escrita por você verdadeiramente: stats.stackexchange.com/a/134385/61496
Yair Daon

Você talvez esteja conflitando com a Regra de Bayes, que pode ser aplicada em probabilidade / estimativa freqüentista, e em estatísticas bayesianas em que "probabilidade" é um resumo da crença?
AdamO 16/01

Respostas:


6

A teoria de busca bayesiana é uma aplicação interessante das estatísticas bayesianas do mundo real, que foi aplicada muitas vezes para procurar navios perdidos no mar. Para começar, um mapa é dividido em quadrados. A cada quadrado é atribuída uma probabilidade anterior de conter a embarcação perdida, com base na última posição conhecida, rumo, tempo faltando, correntes etc. Além disso, a cada quadrado é atribuída uma probabilidade condicional de encontrar a embarcação se ela estiver realmente naquele quadrado, com base coisas como profundidade da água. Essas distribuições são combinadas para priorizar quadrados de mapa com maior probabilidade de produzir um resultado positivo - não é necessariamente o local mais provável para o navio, mas o local mais provável para encontrá-lo.


11
Bom, esses são os tipos de aplicativos descritos no divertido livro A teoria que não morreria: como a regra de Bayes decifrou o código do enigma, perseguiu submarinos russos e emergiu triunfante de dois séculos de controvérsia . Além disso, Turing usou esse tipo de raciocínio para quebrar o enigma.
Jpmuc 18/01/19

Probabilístico, mas é bayesiano?
28419 Andrew Andrew

5

Penso que estimar a produção ou o tamanho da população a partir de números de série é interessante se for um exemplo explicativo tradicional. Aqui você está tentando o máximo de uma distribuição uniforme e discreta. Dependendo da sua escolha anterior, a probabilidade máxima e as estimativas bayesianas diferirão de uma maneira bastante transparente.

Talvez o exemplo mais famoso seja estimar a taxa de produção de tanques alemães durante a Segunda Guerra Mundial a partir de bandas de números de série de tanques e códigos de fabricantes feitos no cenário freqüentista de (Ruggles e Brodie, 1947). Uma análise alternativa do ponto de vista bayesiano com priores informativos foi realizada por (Downey, 2013) e com priores não informativos impróprios por (Höhle e Held, 2004). O trabalho de (Höhle e Held, 2004) também contém muito mais referências a tratamentos anteriores na literatura e também há mais discussões sobre esse problema neste site.

Fontes:

Capítulo 3, Downey, Allen. Pense Bayes: Estatísticas Bayesianas em Python. "O'Reilly Media, Inc.", 2013.

Wikipedia

Ruggles, R .; Brodie, H. (1947). "Uma abordagem empírica à inteligência econômica na segunda guerra mundial". Jornal da Associação Estatística Americana. 42 (237): 72.

Höhle, Michael e Leonhard Held. Estimação bayesiana do tamanho de uma população. No. 499. Documento de discussão // Sonderforschungsbereich 386 der Ludwig-Maximilians-Universität München, 2006.


3

Há uma bela história na Cressie & Wickle Statistics para Spatio -Temporal Data , Wiley, sobre a busca (bayesiana) do USS Scorpion, um submarino que foi perdido em 1968. Contamos essa história aos nossos alunos e eles fazem um ( simplificada) pesquisa usando um simulador .

Exemplos semelhantes podem ser construídos em torno da história do voo perdido MH370; você pode consultar Davey et al., Bayesian Methods na Search for MH370 , Springer-Verlag.


1

Aqui está um exemplo de estimativa de uma média, , a partir de dados contínuos normais. Antes de nos aprofundarmos diretamente em um exemplo, gostaria de revisar algumas das matemáticas dos modelos de dados Bayesianos Normal-Normal.θ

y1 1,...,yny=(y1 1,...,yn)T

y1 1,...,yn|θN(θ,σ2)

Ou, como mais tipicamente escrito por Bayesiano,

y1 1,...,yn|θN(θ,τ)

τ=1 1/σ2τ

yEu

f(yEu|θ,τ)=(τ2π)×exp(-τ(yEu-θ)2/2)

θ^=y¯

θ

θN(uma,1 1/b)

A distribuição posterior que obtemos deste modelo de dados Normal-Normal (após muita álgebra) é outra distribuição Normal.

θ|yN(bb+nτuma+nτb+nτy¯,1 1b+nτ)

b+nτumay¯bb+nτuma+nτb+nτy¯

θ|yθθ

Dito isto, agora você pode usar qualquer exemplo de livro de dados Normal para ilustrar isso. Usarei o conjunto de dados airqualityem R. Considere o problema de estimar a velocidade média do vento (MPH).

> ## New York Air Quality Measurements
> 
> help("airquality")
> 
> ## Estimating average wind speeds
> 
> wind = airquality$Wind
> hist(wind, col = "gray", border = "white", xlab = "Wind Speed (MPH)")
>

insira a descrição da imagem aqui

> n = length(wind)
> ybar = mean(wind)
> ybar
[1] 9.957516 ## "frequentist" estimate
> tau = 1/sd(wind)
> 
> 
> ## but based on some research, you felt avgerage wind speeds were closer to 12 mph
> ## but probably no greater than 15,
> ## then a potential prior would be N(12, 2)
> 
> a = 12
> b = 2
> 
> ## Your posterior would be N((1/))
> 
> postmean = 1/(1 + n*tau) * a + n*tau/(1 + n*tau) * ybar
> postsd = 1/(1 + n*tau)
> 
> set.seed(123)
> posterior_sample = rnorm(n = 10000, mean = postmean, sd = postsd)
> hist(posterior_sample, col = "gray", border = "white", xlab = "Wind Speed (MPH)")
> abline(v = median(posterior_sample))
> abline(v = ybar, lty = 3)
> 

insira a descrição da imagem aqui

> median(posterior_sample)
[1] 10.00324
> quantile(x = posterior_sample, probs = c(0.025, 0.975)) ## confidence intervals
2.5%     97.5% 
9.958984 10.047404 

Nesta análise, o pesquisador (você) pode dizer que, dados fornecidos + informações prévias, sua estimativa de vento médio, usando o percentil 50, as velocidades devem ser 10,00324, maiores do que simplesmente usar a média dos dados. Você também obtém uma distribuição completa, da qual é possível extrair um intervalo credível de 95% usando os quantis 2.5 e 97.5.

Abaixo eu incluo duas referências, eu recomendo a leitura do pequeno artigo de Casella. Destina-se especificamente aos métodos empíricos de Bayes, mas explica a metodologia bayesiana geral para modelos normais.

Referências:

  1. Casella, G. (1985). Uma introdução à análise empírica de dados de Bayes. The American Statistician, 39 (2), 83-87.

  2. Gelman, A. (2004). Análise de dados bayesiana (2ª ed., Textos em ciência estatística). Boca Raton, Flórida: Chapman & Hall / CRC.


1

Uma área de pesquisa em que acredito que os métodos bayesianos são absolutamente necessários é o design ideal.

xβx

xβββx

  • n=0 0β^

  • β^

  • β=1 1β^=5xβ=5x

  • β

xx

xβ

βx

x


1

Ultimamente, eu estava pensando nessa questão e acho que tenho um exemplo em que o bayesiano faz sentido, com o uso de uma probabilidade anterior: a razão de probabilidade de um teste clínico.

O exemplo poderia ser este: a validade do dipslide na urina sob condições diárias de prática (Family Practice 2003; 20: 410-2). A idéia é ver o que um resultado positivo do dipslide na urina implica no diagnóstico de infecção na urina. A razão de probabilidade do resultado positivo é:

euR(+)=test+|H+test+|H-=SensEubEueuEuty1 1-specEufEucEuty
H+H-

OR(+|test+)=euR(+)×OR(+)
OROR(+|test+)OR(+)

euR(+)=12,2euR(-)=0,29

Aqui, o conhecimento prévio é a probabilidade de ter uma infecção na urina com base na análise clínica da pessoa potencialmente doente antes de fazer o teste. Se a estimativa do médico que esta probabilidade é de com base na observação, em seguida, um teste positivo conduz os pós uma probabilidade de p + | t e s t +p+=2/3p+|test+=0,96p+|test-=0,37

Aqui o teste é bom para detectar a infecção, mas não tão bom para descartar a infecção.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.