Antes de tudo, não existe algo que não seja informativo antes . Abaixo, você pode ver as distribuições posteriores resultantes de cinco anteriores "não informativos" diferentes (descritos abaixo do gráfico), dados diferentes. Como você pode ver claramente, a escolha de priores "não informativos" afetou a distribuição posterior, especialmente nos casos em que os dados em si não forneciam muita informação .
Priores "não informativos" para distribuição beta compartilham a propriedade de que , o que leva à distribuição simétrica, e α ≤ 1 , β ≤ 1 , as escolhas comuns: são uniformes (Bayes-Laplace) anteriores ( α = β = 1 ), Jeffreys antes ( α = β = 1 / 2 ), "neutro" antes ( α = β = 1 / 3 ) proposto por Kerman (2011), antes de Haldane ( α = β = 0α=βα≤1,β≤1α=β=1α=β=1/2α=β=1/3α=β=0 ), ou a sua aproximação ( com ε > 0 ) (ver também oα=β=εε>0 ótimo artigo da Wikipedia ).
Parâmetros da distribuição beta prévia são comumente considerados como "pseudocontagens" de sucessos ( ) e falhas ( β ) desde a distribuição posterior do modelo beta-binomial após observar y sucessos em nαβyn ensaios é
θ∣y∼B(α+y,β+n−y)
portanto, quanto mais altos forem, mais influentes serão no posterior. Portanto, ao escolher α = β = 1, você assume que "viu" antecipadamente um sucesso e uma falha (isso pode ou não ser muito dependendo de n ).α,βα=β=1n
À primeira vista, Haldane antes, parece ser o mais "não informativo", pois leva à média posterior, exatamente igual à estimativa de máxima verossimilhança
α+yα+y+β+n−y=y/n
No entanto, leva a distribuições posteriores inadequadas quando ou y = ny=0y=n , o que levou Kernal et al a sugerir seus próprios antecedentes, que produzem mediana posterior o mais próximo possível da estimativa de probabilidade máxima, ao mesmo tempo distribuição adequada.
Há uma série de argumentos a favor e contra cada um dos anteriores "não informativos" (ver Kerman, 2011; Tuyl et al, 2008). Por exemplo, como discutido por Tuyl et al,
. . . deve-se tomar cuidado com valores de parâmetros abaixo de , tanto para os antecedentes não informativos quanto para os informativos, pois esses concentrados concentram sua massa próximo de 0 e / ou 1101 e podem suprimir a importância dos dados observados.
Por outro lado, o uso de anteriores uniformes para conjuntos de dados pequenos pode ser muito influente (pense nisso em termos de pseudocontagens). Você pode encontrar muito mais informações e discussões sobre esse tópico em vários artigos e manuais.
Desculpe, mas não há nenhum único "melhor", "menos informativo" ou "one-size-fitts-all" anteriores. Cada um deles traz algumas informações para o modelo.
Kerman, J. (2011). Distribuições neutras beta e gama conjugadas não informativas e informativas neutras. Revista Eletrônica de Estatística, 5, 1450-1470.
Tuyl, F., Gerlach, R. e Mengersen, K. (2008). Uma comparação de Bayes-Laplace, Jeffreys e outros priores. The American Statistician, 62 (1): 40-44.