Abordagem mais suave das estatísticas bayesianas

Recentemente, comecei a ler "Introdução às Estatísticas Bayesianas" 2ª Edição de Bolstad. Eu tive uma aula de estatística introdutória que cobriu principalmente testes estatísticos e estou quase passando por uma aula de análise de regressão. Que outros livros posso usar para complementar minha compreensão deste livro?

Consegui passar pelas primeiras 100 a 125 páginas. Posteriormente, o livro começa a falar sobre o teste de hipóteses, que é o que estou muito animado para abordar, mas há algumas coisas que me impressionam:

O uso de densidade de probabilidade funciona em cálculos. Em outras palavras, como avaliar essas equações.
Toda esta frase: "Suponha que usamos um beta (1,1) anterior para pi. Então, dado y = 8, a densidade posterior é beta (9,3). A probabilidade posterior da hipótese nula é ..." Eu acredito beta (1,1) refere-se a um PDF em que a média é 1 e o stdev é 1? Eu não entendo como isso mudaria para um beta (9,3) como uma função de densidade posterior.

Eu entendo o conceito de anteriores e posteriores e entendo como aplicá-las usando uma tabela manualmente. Entendo (acho!) Que pi representa a suposta proporção ou probabilidade populacional.

Não entendo como conectar isso com os dados nos quais encontraria diariamente e obtive resultados.

hypothesis-testing bayesian

— Justin Bozonier
fonte

O parâmetro parece no contexto a probabilidade de população de um modelo binomial. Nesse caso, uma distribuição beta é o conjugado anterior para uma probabilidade binomial com

conhecido e desconhecido

. No entanto, os parâmetros da distribuição beta não são a média e o desvio padrão, como é o caso da distribuição normal. Consulte a página da Wikipedia para ver a fórmula da média e variância de uma variável aleatória beta em termos de parâmetros da distribuição beta.

π

$\pi$

n

$n$

π

$\pi$

— caburke

Obrigado! Conjugado anterior é outro termo que não me é familiar. Onde posso aprender mais sobre isso em um nível introdutório?

— Justin Bozonier

Você pode estar interessado em um texto mais prático, já viu Métodos Bayesianos para Hackers? (Divulgação - eu sou um autor colaborador) Tente procurá-lo (é de código aberto e gratuito).

— precisa saber é o seguinte

@JustinBozonier Este link stats.stackexchange.com/questions/66018/… fornece algumas explicações sobre os diferentes termos que as pessoas usam para descrever os anteriores, incluindo os anteriores conjugados.

— Sycorax diz Reinstate Monica

@ Cam.Davidson.Pilon Obrigado por isso! A atualização das crenças nas paradas apenas nesta página estão me ajudando a obter mais do que os outros respondendo estão dizendo: nbviewer.ipython.org/urls/raw.github.com/CamDavidsonPilon/...

— Justin Bozonier

Respostas:

O uso de densidade de probabilidade funciona em cálculos. Em outras palavras, como avaliar essas equações.

Eu acho que você ainda está pensando nisso de uma perspectiva freqüentista: se você estiver procurando por uma estimativa pontual, a posterior não lhe dará. Você coloca PDFs, obtém PDFs. Você pode derivar estimativas pontuais calculando estatísticas de sua distribuição posterior, mas chegarei a isso daqui a pouco.

Eu entendo o conceito de anteriores e posteriores e entendo como aplicá-las usando uma tabela manualmente. Entendo (acho!) Que pi representa a suposta proporção ou probabilidade populacional.

$\pi(x)$ é a mesma coisa que : ambos são PDFs. é convencionalmente usado para denotar que o PDF específico é uma densidade anterior. $p(x)$ $\pi$

Suspeito que você não consiga anteriores e posteriores tão bem quanto pensa, então vamos voltar ao fundamento fundamental das estatísticas Bayesianas: Probabilidade Subjetiva .

Um experimento de pensamento em probabilidade subjetiva

Digamos que eu apresente uma moeda e pergunte se você acha que essa moeda é justa ou não. Você já ouviu muitas pessoas falarem sobre moedas injustas na classe de probabilidade, mas nunca viu uma na vida real, então responde: "Sim, claro, acho que é uma moeda justa". Mas o fato de eu estar lhe fazendo essa pergunta o deixa um pouco desconcertado, portanto, embora sua estimativa seja justa, você não ficaria realmente surpreso se não fosse. Muito menos surpreso do que se você encontrasse essa moeda no seu troco (porque você supõe que seja uma moeda real e realmente não confia em mim agora porque estou agindo de forma suspeita).

Agora, realizamos alguns experimentos. Após 100 lançamentos, a moeda devolve 53 cabeças. Você está muito mais confiante de que é uma moeda justa, mas ainda está aberto à possibilidade de que não seja. A diferença é que agora você ficaria surpreso se essa moeda tivesse algum tipo de viés.

Como podemos representar aqui suas crenças anteriores e posteriores, especificamente, com relação à probabilidade de que a moeda mostre cabeças (o que denotaremos )? Em um cenário frequentista, sua crença anterior - sua hipótese nula - é . Depois de executar o experimento, você não poderá rejeitar o nulo e continuar com a suposição de que sim, a moeda provavelmente é justa. Mas como encapsulamos a mudança na sua confiança de que a moeda é justa? Após o experimento, você está em uma posição em que apostaria que a moeda é justa, mas antes do experimento você seria trepidante. $\theta$ $\theta = 0.5$

No cenário bayesiano, você encapsula sua confiança nas proposições, não tratando probabilidades como valores escalares, mas como variáveis aleatórias, ou seja, funções. Em vez de dizer , dizemos e, assim, encapsulamos nossa confiança na variação do PDF. Se definirmos uma alta variação, estaremos dizendo: "Acho que a probabilidade é 0,5, mas não ficaria surpreso se a probabilidade que eu realmente observo no mundo estiver longe desse valor. Acho que , mas, francamente, não tenho tanta certeza. " Ao definir uma variação baixa, estamos dizendo: "Não apenas acredito que a probabilidade seja 0,5, mas ficaria muito surpreso se a experimentação fornecer um valor que não esteja muito próximo de $\theta = 0.5$ $\theta \sim N(0.5, \sigma^2)$ $\theta= 0.5$ $\theta=0.5$ . "Portanto, neste exemplo, quando você inicia o experimento, você tem um prior com alta variação. Depois de receber dados que corroboram o seu prior, a média do prior permaneceu a mesma, mas a variação se tornou muito mais estreita. Nossa confiança de que é muito maior após a execução do experimento do que antes. $\theta=0.5$

Então, como realizamos cálculos?

Começamos com PDFs e terminamos com PDFs. Quando você precisar relatar uma estimativa pontual, poderá calcular estatísticas como a média, mediana ou modo de sua distribuição posterior (dependendo da sua função de perda, na qual não vou entrar agora. Vamos ficar com a média). Se você tiver uma solução de formulário fechado para o seu PDF, provavelmente será trivial determinar esses valores. Se a posterior for complicada, você pode usar procedimentos como o MCMC para obter amostras da posterior e obter estatísticas da amostra que você tirou.

No exemplo em que você tem uma versão beta anterior e uma probabilidade binomial, o cálculo da parte posterior se reduz a um cálculo muito limpo. Dado:

Anterior: $\theta \sim Beta(\alpha, \beta)$
Probabilidade: $X|\theta \sim Binomial(\theta)$

Em seguida, o posterior reduz para:

Posterior: $\theta|X \sim Beta(\alpha + \sum_{i=1}^n x_i,\, \beta + n - \sum_{i=1}^n x_i)$

Isso acontecerá sempre que você tiver uma versão beta anterior e uma probabilidade binomial, e a razão pela qual deve ser evidente nos cálculos fornecidos pelo DJE . Quando um modelo específico de probabilidade anterior sempre fornece um posterior que tem o mesmo tipo de distribuição que o anterior, o relacionamento entre os tipos de distribuição usados para o anterior e a probabilidade é chamado de Conjugado . Existem muitos pares de distribuições que têm relações conjugadas, e a conjugação é frequentemente utilizada pelos bayesianos para simplificar os cálculos. Dada uma probabilidade específica, você pode facilitar sua vida selecionando um conjugado anterior (se houver algum e você pode justificar sua escolha).

Acredito que beta (1,1) se refere a um PDF em que a média é 1 e o stdev é 1?

Na parametrização comum da distribuição normal, os dois parâmetros significam a média e o desvio padrão da distribuição. Mas é assim que parametrizamos a distribuição normal. Outras distribuições de probabilidade são parametrizadas de maneira muito diferente.

A distribuição Beta geralmente é parametrizada como que e são chamados de parâmetros "shape". A distribuição Beta é extremamente flexível e assume várias formas diferentes, dependendo de como esses parâmetros são definidos. Para ilustrar a diferença entre essa parametrização e a suposição original, veja como você calcula a média e a variação das variáveis aleatórias Beta: $Beta(\alpha, \beta)$ $\alpha$ $\beta$

\begin{aligned} X & \sim B e t uma (α, β) \\ E [X] & = \frac{α}{α + β} \\ var [X] & = \frac{α β}{(α + β)^{2} (α + β + 1)} \end{aligned}

$\begin{equation} \begin{split} X &\sim Beta(\alpha, \beta) \\ \operatorname{E}[X] &= \frac{\alpha}{\alpha + \beta} \\ \operatorname{var}[X] &= \frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)} \end{split} \end{equation}$

Como você pode ver claramente, a média e a variância não fazem parte da parametrização dessa distribuição, mas elas fecharam soluções de formulário que são funções simples dos parâmetros de entrada.

Não entrarei em detalhes descrevendo as diferenças nas parametrizações de outras distribuições conhecidas, mas recomendo que você procure algumas. Qualquer texto básico, mesmo a Wikipedia , deve descrever de alguma maneira como a alteração dos parâmetros modifica a distribuição. Você também deve ler sobre os relacionamentos entre as diferentes distribuições (por exemplo, é a mesma coisa que ). $Beta(1,1)$ $Uniform(0,1)$

— David Marx
fonte

A principal coisa que sua resposta me deu foi a constatação de que a busca por um único valor era onde eu estava me desligando. Uma vez comecei a pensar em termos de distribuição, o texto de Kruschke e tudo o mais começou a fazer muito mais sentido. Obrigado!

— Justin Bozonier

Uma distribuição beta tem a forma . Uma distribuição beta (1,1) possui parâmetros . (Infelizmente, esse tipo de abreviação estatística coloca um fardo para o leitor saber como o modelo específico é parametrizado!) $p(\theta)=\frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}\theta^{\alpha-1}(1-\theta)^{\beta-1}$ $(\alpha, \beta)=(1,1)$

O beta anterior com uma probabilidade binomial (número fixo de tentativas com resultados binários e probabilidades fixas de sucesso / falha) tem a propriedade da conjugação, que permite que o posterior (o produto do anterior e a probabilidade) seja escrito de forma fechada:

\begin{aligned} p (θ | y) & = \frac{p (y | θ) p (θ)}{p (y)} \\ \propto \frac{Γ (α) Γ (β)}{Γ (α + β)} θ^{α - 1} (1 - θ)^{β - 1} * (\binom{n}{y}) θ^{y} (1 - θ)^{n - y} \\ \propto θ^{α - 1} (1 - θ)^{β - 1} * θ^{y} (1 - θ)^{n - y} \\ \propto θ^{α + y - 1} (1 - θ)^{β + n - y - 1} \\ = \frac{Γ (α + y - 1) Γ (β + n - y - 1)}{Γ (α + β + n - 1)} θ^{α + y - 1} (1 - θ)^{β + n - y - 1} \end{aligned}

$\begin{equation} \begin{split} p(\theta|y) &= \frac{p(y|\theta)p(\theta)}{p(y)} \\ ~\\ ~\\ &\propto\frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}\theta^{\alpha-1}(1-\theta)^{\beta-1}*\binom{n}{y}\theta^y(1-\theta)^{n-y} \\ ~\\ ~\\ &\propto\theta^{\alpha-1}(1-\theta)^{\beta-1}*\theta^y(1-\theta)^{n-y} \\ ~\\ &\propto\theta^{\alpha+y-1}(1-\theta)^{\beta+n-y-1} \\ ~\\ &=\frac{\Gamma(\alpha+y-1)\Gamma(\beta+n-y-1)}{\Gamma(\alpha+\beta+n-1)}\theta^{\alpha+y-1}(1-\theta)^{\beta+n-y-1} \end{split} \end{equation}$

Para o exemplo particular no texto, o autor está indicando que um beta (1,1) anterior com dados n = 10 e y = 8 produz um beta (1 + 8,1 + 2) = beta (9,3) posterior distribuição em . $\theta$

Essa expressão de forma fechada é conveniente, mas de forma alguma é necessária. A multiplicação das densidades de probabilidade pode ser feita da mesma maneira que a multiplicação de outras expressões matemáticas; as dificuldades surgem, pois muitos produtos de densidades não são reescritos com tanta facilidade quanto a probabilidade beta anterior / binomial. Felizmente, é aqui que os computadores percebem a folga.

— Sycorax diz restabelecer Monica
fonte

Se você está procurando uma abordagem mais gentil, recomendo o livro de Kruschke, que usa R para explicar os conceitos principais. É uma abordagem muito prática e prática para o aprendizado de estatísticas bayesianas e em seu site você encontra todos os códigos usados.

Alguém também recomendou o texto de Cam.Davidson.Pilon para mim, ainda não o analisou, mas pode ser encontrado aqui .

— horseoftheyear
fonte

Obrigado! Na verdade, eu já possuo o livro Kruschke e voltei para revisá-lo e percebi que é exatamente o que eu preciso agora. Obrigado pelo ponteiro!

— Justin Bozonier

@JustinBozonier Eu também recomendo muito a Introdução à Teoria da Estatística (Humor) . Ele fornece um nível relativamente alto de rigor, mas apenas assume que você conhece um cálculo muito básico.

— 8133 Steve P.