A cotação é um "truque lógico" (ótima expressão!), Conforme observado por @whuber nos comentários ao OP. A única coisa que podemos realmente dizer depois de ver que a moeda tem uma cabeça e uma cauda é que ambos os eventos "cabeça" e "cauda" não são impossíveis. Assim, poderíamos descartar um prior discreto que coloca toda a massa de probabilidade na "cabeça" ou na "cauda". Mas isso não leva, por si só, ao uniforme anterior: a questão é muito mais sutil. Vamos primeiro resumir um pouco do histórico. Estamos considerando o modelo de conjugado beta-binominal para inferência bayesiana da probabilidade de cabeças de uma moeda, dado lançamentos independentes e identicamente distribuídos (condicionalmente em ).θnθp(θ|x)quando observamos cabeças em arremessos:xn
p(θ|x)=Beta(x+α,n−x+β)
podemos dizer que e desempenham os papéis de um "número anterior de cabeças" e "número anterior de caudas" (pseudotriais) e pode ser interpretado como um tamanho de amostra efetivo. Também podemos chegar a essa interpretação usando a expressão conhecida para a média posterior como uma média ponderada da média anterior e a amostra média .αβα+βαα+βxn
Observando , podemos fazer duas considerações:p(θ|x)
- como não temos conhecimento prévio sobre (máxima ignorância), esperamos intuitivamente que o tamanho efetivo da amostra seja "pequeno". Se fosse grande, o anterior estaria incorporando bastante conhecimento. Outra maneira de ver isso é notar que, se e são "pequenos" em relação a e , a probabilidade posterior não dependerá muito do nosso anterior, porque
e . . Esperamos que um prior que não incorpore muito conhecimento se torne rapidamente irrelevante à luz de alguns dados.θα+βαβxn−xx+α≈xn−x+β≈n−x
Além disso, como é a média anterior e não temos conhecimento prévio sobre a distribuição de
, esperamos que . Esse é um argumento de simetria - se não soubermos melhor, não esperaríamos a priori que a distribuição seja inclinada para 0 ou para 1. A distribuição Beta éμprior=αα+βθμprior=0.5
f(θ|α,β)=Γ(α+β)Γ(α)+Γ(β)θα−1(1−θ)β−1
Essa expressão é apenas simétrica em torno de se
.θ=0.5α=β
Por esses dois motivos, seja qual for o anterior (pertencente à família Beta - lembre-se, modelo conjugado!) Que escolhemos usar, esperamos intuitivamente que e seja "pequeno". Podemos ver que todos os três antecedentes não informativos comumente usados para o modelo beta-binomial compartilham essas características, mas, além disso, são bem diferentes. E isso é óbvio: nenhum conhecimento prévio, ou "ignorância máxima", não é uma definição científica; portanto, que tipo de prior expressa "ignorância máxima", ou seja, o que é um prior não informativo depende do que você realmente entende como "máximo" ignorância".α=β=cc
poderíamos escolher um prior que diga que todos os valores para são equiprobáveis, pois não conhecemos melhor. Novamente, um argumento de simetria. Isso corresponde a :θα=β=1
f(θ|1,1)=Γ(2)2Γ(1)θ0(1−θ)0=1
para , isto é, o uniforme anterior usado por Kruschke. Mais formalmente, escrevendo a expressão para a entropia diferencial da distribuição Beta, você pode ver que ela é maximizada quando
. Agora, a entropia é frequentemente interpretada como uma medida da "quantidade de informações" transportada por uma distribuição: uma entropia mais alta corresponde a menos informações. Assim, você pode usar esse princípio de entropia máxima para dizer que, dentro da família Beta, o prior que contém menos informações (máxima ignorância) é esse prior uniforme.θ∈[0,1]α=β=1
Você pode escolher outro ponto de vista, o usado pelo OP, e dizer que nenhuma informação corresponde a não ter visto nenhuma cabeça nem cauda, ou seja,
α=β=0⇒π(θ)∝θ−1(1−θ)−1
O prior que obtemos dessa maneira é chamado de Haldane prior . A função tem um pequeno problema - a integral sobre é infinita, ou seja, independentemente da constante de normalização, ela não pode ser transformado em um pdf adequado. Na verdade, o Haldane anterior é um pmf adequado , que coloca a probabilidade 0,5 em , 0,5 em e 0 em todos os outros valores de . No entanto, não vamos nos deixar levar - para um parâmetro contínuo , os anteriores que não correspondem a um pdf adequado são chamados de anteriores imprópriosθ−1(1−θ)−1I=[0,1]θ=0θ=1θθ. Como, como observado anteriormente, tudo o que importa para a inferência bayesiana é a distribuição posterior, os anteriores impróprios são admissíveis, desde que a distribuição posterior seja adequada. No caso do Haldane anterior, podemos provar que o pdf posterior é adequado se nossa amostra contiver pelo menos um sucesso e uma falha. Assim, só podemos usar o Haldane antes quando observamos pelo menos uma cabeça e uma cauda.
Há outro sentido em que o prior de Haldane pode ser considerado não informativo: a média da distribuição posterior agora é
, isto é, a frequência da amostra das cabeças, que é a estimativa MLE freqüente de
para o modelo binomial do problema de troca de moedas. Além disso, os intervalos credíveis para correspondem aos intervalos de confiança de Wald. Como os métodos freqüentistas não especificam um prior, pode-se dizer que o prior de Haldane não é informativo ou corresponde a zero conhecimento prévio, porque leva à "mesma" inferência que um freqüentador faria. θθα+xα+β+n=xnθθ
Finalmente, você pode usar um prior que não depende da parametrização do problema, ou seja, o prior de Jeffreys, que para o modelo beta-binomial corresponde a
α=β=12⇒π(θ)∝θ−12(1−θ)−12
portanto, com um tamanho de amostra efetivo de 1. O Jeffreys prior tem a vantagem de ser invariante sob a reparametrização do espaço do parâmetro. Por exemplo, o uniforme anterior atribui igual probabilidade a todos os valores de , a probabilidade do evento "head". No entanto, você pode decidir parametrizar esse modelo em termos de log-odds do evento "head", em vez de . Qual é o prior que expressa "ignorância máxima" em termos de probabilidades de log, ou seja, que diz que todas as probabilidades de log possíveis para o evento "head" são equivalentes? É o Haldane anterior, como mostrado nesta resposta (um pouco enigmática)λ = l o g ( θθθλ=log(θ1−θ)θ. Em vez disso, o Jeffreys é invariável em todas as alterações de métricas. Jeffreys afirmou que um prior que não possui essa propriedade é de alguma forma informativo, pois contém informações sobre a métrica usada para parametrizar o problema. O prior dele não.
Para resumir, não há apenas uma escolha inequívoca para um não informativo anterior no modelo beta-binomial. O que você escolhe depende do que você entende como zero conhecimento prévio e dos objetivos de sua análise.