Plano, conjugado e hiperpriores. O que eles são?

15

Atualmente, estou lendo sobre Métodos Bayesianos em Evolução Molecular de Computação por Yang. Na seção 5.2, fala sobre priores e, especificamente, Não informativo / plano / vago / difuso, conjugado e hiperpriores.

Isso pode estar exigindo uma simplificação excessiva, mas alguém poderia explicar simplesmente a diferença entre esses tipos de anteriores e como isso afeta o resultado de uma análise / decisão que eu tomaria durante o processo de uma análise bayesiana?

(Não sou estatístico e estou apenas começando a aprender análises bayesianas, portanto, quanto mais em leigos, melhor)

bayesian prior

— rg255
fonte

15

Simplificando, um prior plano / não informativo é usado quando se tem pouco / nenhum conhecimento sobre os dados e, portanto, tem o menor efeito nos resultados de sua análise (ou seja, inferência posterior).

Distribuições conjugadas são aquelas cujas distribuições anterior e posterior são iguais, e o prior é chamado de conjugado prior. É favorecido por suas conveniências algébricas , especialmente quando a probabilidade tem uma distribuição na forma de família exponencial (gaussiana, beta, etc.). Isso é extremamente benéfico ao realizar simulações posteriores usando a amostra de Gibbs.

E, finalmente, imagine que uma distribuição anterior seja definida em um parâmetro no seu modelo, no entanto, você deseja adicionar outro nível de complexidade / incerteza. Você imporia uma distribuição prévia nos parâmetros do anterior mencionado anteriormente, daí o nome hyper- prior.

Acho que a análise bayesiana de dados de Gelman é um ótimo começo para quem está interessado em aprender estatísticas bayesianas :)

— honeychip
fonte

11

Segundo, o endosso da análise de dados bayesiana.

— Sycorax diz Restabelecer Monica

14

No nível mais alto, podemos pensar em todos os tipos de antecedentes como especificando uma quantidade de informações que o pesquisador traz para a análise fora dos próprios dados: antes de analisar os dados, quais valores de parâmetros são mais prováveis?

Na idade das trevas da análise bayesiana, quando os bayesianos brigavam com os freqüentistas, havia uma crença de que o pesquisador desejaria introduzir o mínimo possível de informações na análise através do anterior. Portanto, havia muita pesquisa e argumento dedicado a entender como, precisamente, um prior poderia ser "não informativo" dessa maneira. Hoje, Gelman argumenta contra a escolha automática de priores não informativos, dizendo na análise de dados bayesianaque a descrição "não informativo" reflete sua atitude em relação ao prior, e não quaisquer características matemáticas "especiais" do prior. (Além disso, havia uma pergunta na literatura inicial sobre em que escala um prior é não informativo. Não acho que isso seja especialmente importante para a sua pergunta, mas para um bom exemplo desse argumento de uma perspectiva freqüentista, veja o começo de Gary King, Metodologia Política Unificadora. )

Um prior "plano" indica um prior uniforme onde todos os valores na faixa são igualmente prováveis. Novamente, há argumentos a serem discutidos sobre se são realmente não informativos, pois especificar que todos os valores são igualmente prováveis é, de alguma forma, informações e pode ser sensível à forma como o modelo é parametrizado. Priores planos têm uma longa história na análise bayesiana, remontando a Bayes e Laplace.

Um prior "vago" é altamente difuso, embora não necessariamente plano, e expressa que uma grande variedade de valores é plausível, em vez de concentrar a massa de probabilidade em torno de uma faixa específica. Essencialmente, é um prior com alta variação (o que significa "alta" variação no seu contexto).

Priores conjugados têm a característica conveniente de que, quando multiplicados pela probabilidade apropriada, eles produzem uma expressão de forma fechada. Um exemplo disso é o beta anterior com a probabilidade binomial ou o gama anterior com a probabilidade de poisson. Existem tabelas úteis em toda a Internet e Wikipedia. A família exponencial é extremamente conveniente nesse sentido.

Priores conjugados geralmente são a opção "padrão" para alguns problemas devido às suas propriedades convenientes, mas isso não significa necessariamente que eles são os "melhores", a menos que o conhecimento prévio de alguém possa ser expresso por meio do conjugado anterior. Os avanços na computação significam que a conjugação não é tão valorizada como antes (cf. amostra de Gibbs vs NUTS), para que possamos realizar mais facilmente a inferência com priores não-conjugados sem muitos problemas.

$N(\mu,\sigma^2)$ $\mu$ $\sigma^2$ $\mu$ $\sigma^2$

— Sycorax diz restabelecer Monica
fonte

11

Além disso, às vezes não está claro o que são 'dados' e o que são 'informações anteriores'; veja minha resposta em stats.stackexchange.com/questions/112451/… como exemplo.

— Kjetil b halvorsen