O livro de Kevin Murphy discute um problema bayesiano hierárquico clássico (originalmente discutido em Johnson and Albert, 1999, p24
):
Suponha que estamos tentando estimar a taxa de câncer em cidades. Em cada cidade, amostramos um número de indivíduos e medimos o número de pessoas com câncer , onde é a verdadeira taxa de câncer na cidade.N i x i ~ Bin ( N i , θ i ) θ i
Gostaríamos de estimar os 's, permitindo que as cidades com poucos dados emprestem força estatística de cidades ricas em dados.
Para isso, ele modela para que todas as cidades compartilhem o mesmo anterior, para que os modelos finais tenham a seguinte aparência:
onde .
A parte crucial sobre esse modelo é, é claro (cito), "que deduzimos dos dados, pois, se o apenas em uma constante, o será condicionalmente independente, e aí não haverá fluxo de informações entre eles ".θ i
Eu estou tentando modelar isso no PyMC , mas, tanto quanto eu entendo, eu preciso de um prior para e (acredito que seja acima). Qual seria uma boa prévia para esse modelo?b p ( η )
Caso ajude, o código, como eu o tenho agora, é:
bins = dict()
ps = dict()
for i in range(N_cities):
ps[i] = pm.Beta("p_{}".format(i), alpha=a, beta=b)
bins[i] = pm.Binomial('bin_{}'.format(i), p=ps[i],n=N_trials[i], value=N_yes[i], observed=True)
mcmc = pm.MCMC([bins, ps])
onde acredito que preciso de um prior para a
e b
. Como devo escolher um?