Estamos investigando testes estatísticos bayesianos e deparamos com um fenômeno estranho (para mim pelo menos).
Considere o seguinte caso: estamos interessados em medir qual população, A ou B, tem uma taxa de conversão mais alta. Para uma verificação de sanidade, definimos , ou seja, a probabilidade de conversão é igual nos dois grupos. Geramos dados artificiais usando um modelo binomial, por exemplo,
Em seguida, tentamos estimar usando um modelo beta-binomial bayesiano para obter posteriores para cada taxa de conversão, por exemplo,
Nossa estatística de teste é calculada calculando via monte carlo.
O que me surpreendeu foi que, se , então . Meu pensamento era que ele seria centrado em torno de 0,5 e até convergir para 0,5 conforme o tamanho da amostra, , cresce.
Minha pergunta é: por que quando ?
Aqui está um código Python para demonstrar:
%pylab
from scipy.stats import beta
import numpy as np
import pylab as P
a = b = 0.5
N = 10000
samples = [] #collects the values of S
for i in range(5000):
assert a==b
A = np.random.binomial(N, a); B = np.random.binomial(N, b)
S = (beta.rvs(A+1, N-A+1, size=15000) > beta.rvs(B+1, N-B+1, size=15000)).mean()
samples.append(S)
P.hist(samples)
P.show()
R
, Obtenho histogramas decididamente não uniformes para pequeno .