Os priores Bayesianos se tornam irrelevantes com um grande tamanho de amostra?


26

Ao realizar inferência bayesiana, operamos maximizando nossa função de probabilidade em combinação com as anteriores que temos sobre os parâmetros. Como a probabilidade do log é mais conveniente, maximizamos efetivamente usando um MCMC ou outro que gere as distribuições posteriores (usando um pdf para cada parâmetro é anterior e a probabilidade de cada ponto de dados).em(anterior)+em(probabilidade)

Se tivermos muitos dados, a probabilidade disso irá sobrecarregar qualquer informação que o anterior forneça, por simples matemática. Em última análise, isso é bom e por design; sabemos que o posterior convergirá para a probabilidade com mais dados, porque é suposto.

Para problemas definidos por conjugados anteriores, isso é até mesmo comprovável.

Existe uma maneira de decidir quando os priores não importam para uma determinada função de probabilidade e algum tamanho de amostra?


3
Sua primeira frase não está certa. A inferência bayesiana e o algoritmo MCMC não maximizam a probabilidade.
niandra82

5
Você está familiarizado com a probabilidade marginal, fatores de Bayes, distribuição preditiva anterior / posterior, verificação preditiva anterior / posterior? esses são os tipos de coisas que você usaria para comparar modelos em um paradigma bayesiano. Penso que esta questão se resume a saber se o fator Bayes, entre modelos que diferem apenas pelo anterior, convergirá para 1 conforme o tamanho da amostra chegar ao infinito. Você também pode deixar de lado os anteriores truncados no espaço de parâmetros implicado pela probabilidade, pois isso pode potencialmente impedir que o destino converja para a estimativa de probabilidade máxima.
Zachary Blumenfeld /

@ZacharyBlumenfeld: isso pode se qualificar como uma resposta adequada!
Xian

A forma corrigida está "maximizando a regra de Bayes"? Além disso, os modelos com os quais estou trabalhando são baseados fisicamente, portanto, espaços de parâmetros truncados são uma necessidade para o trabalho. (Concordo também que seus comentários são, provavelmente, uma resposta, você poderia concretizar-los @ZacharyBlumenfeld?)
pixels

Respostas:


37

Não é tão fácil. As informações em seus dados sobrecarregam as informações anteriores, não apenas o tamanho da amostra é grande, mas quando os dados fornecem informações suficientes para sobrecarregar as informações anteriores. Priores não informativos são facilmente persuadidos pelos dados, enquanto os altamente informativos podem ser mais resistentes. Em casos extremos, com antecedentes mal definidos, seus dados podem não ser capazes de superá-los (por exemplo, densidade zero em alguma região).

Lembre-se de que, pelo teorema de Bayes, usamos duas fontes de informação em nosso modelo estatístico: fora de dados, informações prévias e informações transmitidas por dados na função de probabilidade :

posterioranterior×probabilidade

Ao usar informações prévias não informativas (ou máxima verossimilhança), tentamos incluir no mínimo o mínimo possível de informações anteriores. Com prévios informativos, trazemos uma quantidade substancial de informações para o modelo. Portanto, tanto os dados como os anteriores nos informam quais valores dos parâmetros estimados são mais plausíveis ou críveis. Eles podem trazer informações diferentes e cada um deles pode dominar o outro em alguns casos.

Deixe-me ilustrar isso com o modelo beta-binomial muito básico (veja aqui o exemplo detalhado ). Com o "não informativo" anterior , uma amostra bem pequena pode ser suficiente para dominá-la. Nas plotagens abaixo, você pode ver as anteriores (curva vermelha), probabilidade (curva azul) e posteriores (curva violeta) do mesmo modelo com diferentes tamanhos de amostra.

insira a descrição da imagem aqui

Por outro lado, você pode ter um informativo prévio próximo ao valor real, que também seria fácil, mas não tão fácil quanto o informativo semanal, persuadido pelos dados.

insira a descrição da imagem aqui

O caso é muito diferente do informativo anterior, quando está longe do que os dados dizem (usando os mesmos dados do primeiro exemplo). Nesse caso, você precisa de uma amostra maior para superar o anterior.

insira a descrição da imagem aqui

Portanto, não se trata apenas do tamanho da amostra, mas também sobre quais são seus dados e quais são seus dados anteriores. Observe que esse é um comportamento desejado , porque ao usar priors informativos, queremos incluir informações fora de dados em nosso modelo e isso seria impossível se grandes amostras sempre descartassem os anteriores.

Por causa de complicadas relações anteriores de probabilidade posterior, é sempre bom observar a distribuição posterior e fazer algumas verificações preditivas posteriores (Gelman, Meng e Stern, 1996; Gelman e Hill, 2006; Gelman et al, 2004). Além disso, conforme descrito por Spiegelhalter (2004), é possível usar diferentes prévios, por exemplo "pessimista" que expressam dúvidas sobre grandes efeitos, ou "entusiasmados" otimistas sobre os efeitos estimados. Comparar como os priores diferentes se comportam com seus dados pode ajudar a avaliar informalmente a extensão pela qual os posteriores foram influenciados pelos anteriores.


Spiegelhalter, DJ (2004). Incorporando idéias bayesianas na avaliação de serviços de saúde. Statistical Science, 156-174.

Gelman, A., Carlin, JB, Stern, HS e Rubin, DB (2004). Análise de dados bayesianos. Chapman & Hall / CRC.

Gelman, A. e Hill, J. (2006). Análise de dados usando regressão e modelos multiníveis / hierárquicos. Cambridge University Press.

Gelman, A., Meng, XL e Stern, H. (1996). Avaliação preditiva posterior da adequação do modelo através de discrepâncias realizadas. Statistica sinica, 733-760.


2
Boa contribuição, obrigado Tim. Eu gostaria de acrescentar que o contraste que você define tão bem aqui pode se apresentar mesmo dentro de um e o mesmo modelo relacionado aos diferentes parâmetros desse modelo. Pode haver alguns parâmetros sobre os quais os dados oferecem informações insignificantes; nesse caso, os anteriores podem servir criticamente para fornecer restrições de identificação .
David C. Norris

Na primeira matriz 3x3 dos gráficos, os gráficos estão corretos? O posterior é completamente plano até e incluindo n = 25?
MichiganWater

11
@MichiganWater cada coleção de 9 parcelas usa a mesma escala para o eixo y, para que os maiores valores não saiam da tela. Portanto, eles são planos relativamente ao caso em que você tem mais dados. Se você "ampliou", eles não ficarão planos.
Tim

11

Ao realizar inferência bayesiana, operamos maximizando nossa função de probabilidade em combinação com as anteriores que temos sobre os parâmetros.

Na verdade, isso não é o que muitos praticantes consideram ser uma inferência bayesiana. É possível estimar parâmetros dessa maneira, mas eu não chamaria isso de inferência bayesiana.

A inferência bayesiana usa distribuições posteriores para calcular probabilidades posteriores (ou proporções de probabilidades) para hipóteses concorrentes.

As distribuições posteriores podem ser estimadas empiricamente pelas técnicas de Monte Carlo ou Markov-Chain Monte Carlo (MCMC).

Pondo de lado essas distinções, a questão

Os priores Bayesianos se tornam irrelevantes com um grande tamanho de amostra?

ainda depende do contexto do problema e do seu interesse.

Se você se importa com a previsão, considerando uma amostra já muito grande, a resposta é geralmente sim, os anteriores são assintoticamente irrelevantes *. No entanto, se você se preocupa com a seleção de modelos e o teste de hipóteses bayesianas, a resposta é não, os anteriores são muito importantes e seu efeito não se deteriora com o tamanho da amostra.

* Aqui, eu suponho que os priores não sejam truncados / censurados além do espaço de parâmetros implicado pela probabilidade e que eles não sejam tão mal especificados que possam causar problemas de convergência com densidade quase zero em regiões importantes. Meu argumento também é assintótico, que vem com todas as advertências regulares.

Densidades preditivas

dN=(d1 1,d2,...,dN)dEuf(dNθ)θ

π0 0(θλ1 1)π0 0(θλ2)λ1 1λ2

πN(θdN,λj)f(dNθ)π0 0(θλj)forj=1 1,2

θθNjπN(θdN,λj)θ^N=maxθ{f(dNθ)}θN1 1θ N θ * ε > 0θN2θ^Nθε>0 0

limNPr(|θNj-θ|ε)=0 0j{1 1,2}limNPr(|θ^N-θ|ε)=0 0

Para ser mais consistente com seu procedimento de otimização, podemos definir alternativamente e, embora esse parâmetro seja muito diferente então o definido anteriormente, os assintóticos acima ainda se mantêm.θNj=maxθ{πN(θdN,λj)}

Segue-se que as densidades preditivas, definidas como em uma abordagem bayesiana adequada ou usando otimização, converja na distribuição para . Portanto, em termos de previsão de novas observações condicionais para uma amostra já muito grande, a especificação anterior não faz diferença assintoticamente .f(d~dN,λj)=Θf(d~θ,λj,dN)πN(θλj,dN)dθf(d~dN,θNj)f(d~dN,θ)

Seleção de Modelo e Teste de Hipóteses

Se alguém estiver interessado na seleção do modelo bayesiano e no teste de hipóteses, deve estar ciente de que o efeito do anterior não desaparece assintoticamente.

Em um cenário bayesiano, calcularíamos probabilidades posteriores ou fatores de Bayes com probabilidades marginais. Uma probabilidade marginal é a probabilidade dos dados dados um modelo, ou seja, .f(dNmodeeu)

O fator Bayes entre dois modelos alternativos é a razão de suas probabilidades marginais; A probabilidade posterior de cada modelo em um também é possível calcular um conjunto de modelos a partir de suas probabilidades marginais; Essas são métricas úteis usadas para comparar modelos.

KN=f(dNmodeeu1 1)f(dNmodeeu2)
Pr(modeeujdN)=f(dNmodeeuj)Pr(modeeuj)eu=1 1euf(dNmodeeueu)Pr(modeeueu)

Para os modelos acima, as probabilidades marginais são calculadas como;

f(dNλj)=Θf(dNθ,λj)π0 0(θλj)dθ

No entanto, também podemos pensar em adicionar sequencialmente observações à nossa amostra e escrever a probabilidade marginal como uma cadeia de probabilidades preditivas ; A partir de cima nós saiba que converge para , mas é geralmente não é verdade que converge para , nem converge para

f(dNλj)=n=0 0N-1 1f(dn+1 1dn,λj)
f(dN+1 1dN,λj)f(dN+1 1dN,θ)f(dNλ1 1)f(dNθ)f(dNλ2). Isso deve ser aparente, dada a notação do produto acima. Embora os últimos termos do produto sejam cada vez mais semelhantes, os termos iniciais serão diferentes, por isso, o fator Bayes Esse é um problema se desejarmos calcular um fator de Bayes para um modelo alternativo com probabilidade diferente e anterior. Por exemplo, considere a probabilidade marginal ; então
f(dNλ1 1)f(dNλ2)p1 1
h(dNM)=Θh(dNθ,M)π0 0(θM)dθ
f(dNλ1 1)h(dNM)f(dNλ2)h(dNM)
assintoticamente ou não. O mesmo pode ser mostrado para probabilidades posteriores. Nesse cenário, a escolha do anterior afeta significativamente os resultados da inferência, independentemente do tamanho da amostra.

5

Outro problema a ter em mente é que você pode ter muitos dados , mas ainda tem muito pouca informação sobre determinados parâmetros em seu modelo. Nesses casos, mesmo um prévio ligeiramente informativo pode ser extremamente útil ao realizar inferência.

Como um exemplo bobo, suponha que você esteja comparando médias de dois grupos e que você tenha 1.000.000 de amostras do grupo 1 e 10 do grupo 2. Então, ter claramente um prévio informativo sobre o grupo 2 pode melhorar a inferência, mesmo que você tenha coletado mais de um milhão amostras.

E embora esse exemplo possa ser trivial, ele começa a levar a implicações muito importantes. Se queremos entender alguns fenômenos complexos, a coisa mais inteligente a fazer é coletar muitas informações sobre as partes que não entendemos e menos informações sobre as partes que entendemos. Se coletarmos muitos dados dessa maneira, jogar fora o anterior porque temos muitos dados é uma péssima escolha; acabamos de recuar nossa análise porque não perdemos tempo coletando dados sobre coisas que já sabemos!

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.