Eu recomendaria o uso de uma "distribuição Beta do segundo tipo" (Beta 2 para abreviar) para uma distribuição pouco informativa e o uso da distribuição gama inversa conjugada, se você tiver fortes crenças anteriores. A razão pela qual digo isso é que o prior a conjugado não é robusto, no sentido de que, se o prior e os dados entrarem em conflito, o prior terá uma influência ilimitada na distribuição posterior. Esse comportamento é o que eu chamaria de "dogmático", e não justificado por informações prévias leves .
A propriedade que determina a robustez é o comportamento da cauda do anterior e da probabilidade. Um artigo muito bom descrevendo os detalhes técnicos está aqui . Por exemplo, uma probabilidade pode ser escolhida (digamos, uma distribuição t) de modo que, como uma observação (ou seja, se torne arbitrariamente grande), ela seja descartada da análise de um parâmetro de localização (da mesma maneira que você faria intuitivamente fazer com essa observação). A taxa de "descarte" depende de quão pesadas são as caudas da distribuição.yi→∞
Alguns slides que mostram um aplicativo no contexto de modelagem hierárquica podem ser encontrados aqui (mostra a forma matemática da distribuição Beta 2 ), com um documento aqui .
Se você não está no contexto de modelagem hierárquica, sugiro comparar o posterior (ou quaisquer resultados que você esteja criando), mas use o Jeffreys anterior para um parâmetro de escala, que é dado por . Isso pode ser criado como um limite da densidade Beta 2, pois ambos os parâmetros convergem para zero. Para uma aproximação, você pode usar valores pequenos. Mas eu tentaria elaborar a solução analiticamente, se possível (e, se não for uma solução analítica completa, faça com que a solução analítica progrida o máximo possível), porque você não economizará apenas algum tempo computacional, mas estará também provavelmente entenderá melhor o que está acontecendo no seu modelo.p(σ)∝1σ
Uma alternativa adicional é especificar suas informações anteriores na forma de restrições (média igual a , variação igual a , IQR igual a , etc. com os valores de especificados por você) e, em seguida, usar o distribuição máxima de entropia (procure em qualquer obra de Edwin Jaynes ou Larry Bretthorst uma boa explicação sobre o que é Máxima Entropia e o que não é) com relação à "medida invariável" de Jeffreys . V I Q R M , V , I Q R m ( σ ) = 1MVIQRM,V,IQRm(σ)=1σ
MaxEnt é a versão "Rolls Royce", enquanto o Beta 2 é mais uma versão "sedan". A razão para isso é que a distribuição MaxEnt "assume o mínimo", sujeita às restrições que você colocou nela (por exemplo, nenhuma restrição significa que você acabou de obter o Jeffreys antes), enquanto a distribuição Beta 2 pode conter alguns recursos "ocultos" que pode ou não ser desejável no seu caso específico (por exemplo, se as informações anteriores forem mais confiáveis que os dados, o Beta 2 será ruim).
A outra boa propriedade da distribuição MaxEnt é que, se não houver restrições não especificadas operando no mecanismo de geração de dados , a distribuição MaxEnt é predominantemente a distribuição mais provável que você verá (estamos falando de probabilidades de bilhões e trilhões para um). Portanto, se a distribuição que você vê não for a MaxEnt, provavelmente haverá restrições adicionais que você não especificou que operam no processo verdadeiro, e os valores observados podem fornecer uma pista sobre qual pode ser essa restrição.