Exemplo para um anterior, que, diferentemente de Jeffreys, leva a um posterior que não é invariável

Estou repostando uma "resposta" a uma pergunta que eu havia feito há duas semanas atrás: Por que o Jeffreys é útil antes? Era realmente uma pergunta (e eu também não tinha o direito de postar comentários), então espero que esteja tudo bem fazer isso:

No link acima, é discutido que a característica interessante de Jeffreys anterior é que, ao remeterar o modelo, a distribuição posterior resultante fornece probabilidades posteriores que obedecem às restrições impostas pela transformação. Digamos, como discutido lá, ao passar da probabilidade de sucesso no exemplo Beta-Bernoulli para odds , deve ser o caso em que a a posterior satisfaz . $\theta$ $\psi=\theta/(1-\theta)$ $P(1/3\leq\theta\leq 2/3\mid X=x)=P(1/2\leq\psi\leq 2\mid X=x)$

Eu queria criar um exemplo numérico de invariância de Jeffreys antes para transformar em odds e, mais interessante, a falta de outros anteriores (digamos, Haldane, uniformes ou arbitrários). $\theta$ $\psi$

Agora, se o posterior para a probabilidade de sucesso for Beta (para qualquer Beta anterior, não apenas Jeffreys), o posterior das probabilidades segue uma distribuição Beta do segundo tipo (consulte a Wikipedia) com os mesmos parâmetros . Então, como destacado no exemplo numérico abaixo, não é de surpreender (pelo menos para mim) que haja invariância para qualquer escolha de Beta anterior (brinque com alpha0_Ue beta0_U), não apenas Jeffreys, cf. a saída do programa.

library(GB2) 
# has the Beta density of the 2nd kind, the distribution of theta/(1-theta) if theta~Beta(alpha,beta)

theta_1 = 2/3 # a numerical example as in the above post
theta_2 = 1/3

odds_1 = theta_1/(1-theta_1) # the corresponding odds
odds_2 = theta_2/(1-theta_2)

n = 10 # some data
k = 4

alpha0_J = 1/2 # Jeffreys prior for the Beta-Bernoulli case
beta0_J = 1/2
alpha1_J = alpha0_J + k # the corresponding parameters of the posterior
beta1_J = beta0_J + n - k

alpha0_U = 0 # some other prior
beta0_U = 0
alpha1_U = alpha0_U + k # resulting posterior parameters for the other prior
beta1_U = beta0_U + n - k

# posterior probability that theta is between theta_1 and theta_2:
pbeta(theta_1,alpha1_J,beta1_J) - pbeta(theta_2,alpha1_J,beta1_J) 
# the same for the corresponding odds, based on the beta distribution of the second kind
pgb2(odds_1, 1, 1,alpha1_J,beta1_J) - pgb2(odds_2, 1, 1,alpha1_J,beta1_J) 

# same for the other prior and resulting posterior
pbeta(theta_1,alpha1_U,beta1_U) - pbeta(theta_2,alpha1_U,beta1_U)
pgb2(odds_1, 1, 1,alpha1_U,beta1_U) - pgb2(odds_2, 1, 1,alpha1_U,beta1_U)

Isso me leva às seguintes perguntas:

Eu cometo um erro?
Se não, existe um resultado como falta de invariância em famílias conjugadas ou algo assim? (A inspeção rápida me leva a suspeitar que, por exemplo, eu também não produzisse falta de invariância no caso normal-normal.)
Você conhece um exemplo (de preferência simples) em que fazem obter falta de invariância?

— Christoph Hanck
fonte

Você não precisa do código R (que não pode ser executado com o R versão 3.0.2) para verificar a invariância, pois é uma propriedade da probabilidade. O que se entende por invariância prévia é a construção de uma regra para a seleção prévia que não depende da escolha da parametrização do modelo de amostragem.

— Xian

Me desculpe pela incoveniência. É executado com o R 3.1.2 no meu computador. Se eu puder acompanhar, o seu comentário implica que eu não entendi o comentário de Zen sobre a resposta aceita, item 1., de Stephane Laurent, sobre Por que o Jeffreys é útil antes? ?

— Christoph Hanck

Respostas:

Seu cálculo parece estar verificando que, quando temos uma distribuição anterior específica os dois procedimentos a seguir $p(\theta)$

Calcule a parte posterior $p_{\theta \mid D}(\theta \mid D)$
Transforme o posterior mencionado na outra parametrização para obter $p_{\psi \mid D}(\psi \mid D)$

Transforme o anterior na outra parametrização para obter $p_\theta(\theta)$ $p_\psi(\psi)$
Usando o anterior , calcule o posterior $p_\psi(\psi)$ $p_{\psi \mid D}(\psi \mid D)$

$\psi$ $\psi$ $\theta$

No entanto, este não é o ponto da invariância em questão. Em vez disso, a questão é se, quando temos um método específico para decidir o prior, os dois procedimentos a seguir:

$p_\theta(\theta)$
Converta essa distribuição em $p_\psi(\psi)$

Use o método para decidir o prior para decidir $p_\psi(\psi)$

resultam na mesma distribuição anterior para . Se eles resultarem no mesmo anterior, eles também resultarão no mesmo posterior (como você verificou em alguns casos). $\psi$

Como mencionado na resposta de @ NeilG, se o seu Método para decidir o prior for 'definir uniforme antes do parâmetro', você não obterá o mesmo antes no caso de probabilidade / probabilidades, como o uniforme anterior para acima de não é uniforme para acima de . $\theta$ $[0,1]$ $\psi$ $[0,\infty)$

Em vez disso, se o seu Método para decidir o prior for 'use o prior de Jeffrey para o parâmetro', não importa se você o usa para e converte-o na parametrização , ou diretamente para . Esta é a invariância reivindicada. $\theta$ $\psi$ $\psi$

— Juho Kokkala
fonte

Parece que você está verificando se as probabilidades induzidas pelos dados não são afetadas pela parametrização, o que não tem nada a ver com o anterior.

Se sua maneira de escolher os anteriores é, por exemplo, "escolher o uniforme anterior", então o que é uniforme sob uma parametrização (digamos Beta, ie Beta (1,1)) não é uniforme sob outra, digamos, BetaPrime (1,1 ) (que está inclinado) - o BetaPrime (1, -1) é uniforme se existe algo assim.

O prior de Jeffreys é a única "maneira de escolher os anteriores" que é invariável sob reparametrização. Portanto, é menos presuntivo do que qualquer outra maneira de escolher os anteriores.

— Neil G
fonte

Não acho que o prior de Jeffreys seja o único anterior invariável. Quando diferem, as medidas de Haar esquerda e direita são ambas invariáveis.

— Xian

@ Neil G, não tenho certeza se posso seguir o seu raciocínio de que só vejo a probabilidade. Quando ligar (por exemplo) alpha1_Jem pbetae pgb2este parâmetro é determinado por um parâmetro anterior ( alpha1_J) e os dados ( k), do mesmo modo para todos os outros parâmetros.

— Christoph Hanck

(+1) Você esperaria que a obtenção de antecedentes subjetivos também fosse invariável para a parametrização.

— Scortchi - Restabelecer Monica

@ Zen: sim, de fato, eu estava com muita pressa: as medidas de Haar são um exemplo incorreto. Ainda assim, eu me pergunto por que Jeffreys 'é o único invariante anterior ...'

— Xian

@ Xi'an: se minha memória não me falha, há um teorema no livro de Cencov ( amazon.com/… ) que, em certo sentido (?), Prova que Jeffreys anterior é o único cara na cidade com o invariância necessária. Sua prova é inacessível para mim. Ele usa a linguagem da teoria das categorias, functores, morfismos e tudo mais. pt.wikipedia.org/wiki/Category_theory

— Zen