31

Sou muito novo nas estatísticas bayesianas e isso pode ser uma pergunta boba. Mesmo assim:

Considere um intervalo credível com um prior que especifique uma distribuição uniforme. Por exemplo, de 0 a 1, em que 0 a 1 representa toda a gama de valores possíveis de um efeito. Nesse caso, um intervalo credível de 95% seria igual a um intervalo de confiança de 95%?

— pomodoro
fonte

23

Muitos intervalos de confiança freqüentes (ICs) são baseados na função de probabilidade. Se a distribuição anterior é realmente não informativa, o posterior a Bayesiano tem essencialmente a mesma informação que a função de probabilidade. Consequentemente, na prática, um intervalo de probabilidade bayesiano (ou intervalo credível) pode ser muito semelhante numericamente a um intervalo de confiança freqüentista. [É claro que, mesmo que numericamente similares, haja diferenças filosóficas na interpretação entre estimativas de intervalos freqüentistas e bayesianas.]

Aqui está um exemplo simples, estimando a probabilidade de sucesso binomial $\theta.$ Suponha que tenhamos $n = 100$ observações (tentativas) com $X = 73$ sucessos.

Frequencista: Os tradicionais Wald intervalo de usos do ponto estimativa E o IC de 95% é da forma $\hat \theta = X/n = 73/100 = 0.73.$

\hat{θ} \pm 1.96 \sqrt{\frac{\hat{θ} (1 - \hat{θ})}{n}},

$\hat \theta \pm 1.96\sqrt{\frac{\hat \theta(1-\hat \theta)} {n}},$ que calcula até

(0.643, 0.817) .

$(0.643,\,0.817).$

n = 100;  x = 73;  th.w = x/n;  pm = c(-1,1)
ci.w = th.w + pm*1.96*sqrt(th.w*(1-th.w)/n);  ci.w
[1] 0.6429839 0.8170161

Essa forma de IC pressupõe que as distribuições binomiais relevantes possam ser aproximadas pelas normais e que a margem de erro é bem aproximado por $\sqrt{\theta(1-\theta)/n}$ Especialmente parapequenoessas suposições não precisam ser verdadeiras. [Os casos em queousão especialmente problemáticos.] $\sqrt{\hat\theta(1-\hat\theta)/n}.$ $n,$ $X = 0$ $X = n$

O IC Agresti-Coull demonstrou ter uma probabilidade de cobertura mais precisa. Esse intervalo 'adiciona dois Sucesso e duas Falhas' como um truque para obter uma probabilidade de cobertura mais próxima de 95%. Começa com a estimativa pontual onde Então, um IC de 95% tem a forma $\tilde \theta = (X+2)/\tilde n,$ $\tilde n + 4.$ que calcula paraParaea diferença entre estes dois estilos de intervalos de confiança é quase insignificante.

\tilde{θ} \pm 1.96 \sqrt{\frac{\tilde{θ} (1 - \tilde{θ})}{\tilde{n}}},

$\tilde \theta \pm 1.96\sqrt{\frac{\tilde \theta(1-\tilde \theta)} {\tilde n}},$

(0.612, 0.792) .

$(0.612, 0.792).$

n > 100

$n > 100$

0.3 < \tilde{θ} < 0.7,

$0.3 < \tilde \theta < 0.7,$

ci.a = th.a + pm*1.96*sqrt(th.a*(1-th.a)/n);  ci.a
[1] 0.6122700 0.7915761

Bayesiana: Uma populares noninformative antes nesta situação é A função de probabilidade é proporcional a Multiplicando os núcleos da anterior e da probabilidade, temos o núcleo da distribuição posterior $\mathsf{Beta}(1,1) \equiv \mathsf{Unif}(0,1).$ $\theta^x(1-\theta)^{n-x}.$ $\mathsf{Beta}(x+1,\, n-x+1).$

Então, uma estimativa do intervalo bayesiano de 95% usa os quantis 0,025 e 0,975 da distribuição posterior para obter Quando a distribuição anterior é 'plana' ou 'não informativa', a diferença numérica entre o intervalo de probabilidade bayesiano e o intervalo de confiança de Agresti-Coull é pequena. $(0.635, 0.807).$

qbeta(c(.025, .975), 74, 28)
[1] 0.6353758 0.8072313

Notas: (a) Nesta situação, alguns bayesianos preferem o anterior não informativo (b) Para níveis de confiança diferentes de 95%, o Agresti-Coull CI utiliza uma estimativa pontual ligeiramente diferente. (c) Para dados que não sejam binomiais, pode não haver um 'plano' anterior disponível, mas pode-se escolher um anterior com uma enorme variação (pequena precisão) que transporta muito pouca informação. (d) Para mais discussões sobre os ICs da Agresti-Coull, gráficos de probabilidades de cobertura e algumas referências, talvez também veja estas Perguntas e Respostas . $\mathsf{Beta}(.5, .5).$

— BruceET
fonte

10

A resposta do BruceET é excelente, mas bastante longa, então aqui está um rápido resumo prático:

se o anterior for plano, a probabilidade e o posterior terão a mesma forma
os intervalos, no entanto, não são necessariamente os mesmos, porque são construídos de maneiras diferentes. Um IC bayesiano padrão de 90% cobre os 90% centrais do posterior. Um IC frequentista é geralmente definido por uma comparação pontual (consulte a resposta do BruceET). Para um parâmetro de localização ilimitada (por exemplo, estimando a média de uma distribuição normal), as diferenças geralmente são pequenas, mas se você estimar um parâmetro limitado (por exemplo, média binomial) próximo aos limites (0/1), as diferenças podem ser substanciais.
é claro, a interpretação também é diferente, mas eu interpreto a pergunta principalmente como "quando os valores serão os mesmos?"

— Florian Hartig
fonte

9

Embora se possa resolver um prior que produza um intervalo credível igual ao intervalo de confiança freqüentista, é importante perceber o quão restrito é o escopo da aplicação. Toda a discussão pressupõe que o tamanho da amostra foi fixo e não é uma variável aleatória. Pressupõe que houve apenas uma olhada nos dados e que a inferência seqüencial não foi realizada. Ele assume que havia apenas uma variável dependente e nenhum outro parâmetro era interessante. Onde existem multiplicidades, os intervalos bayesiano e freqüentista divergem (as probabilidades posteriores bayesianas estão no modo preditivo de tempo para a frente e não precisam considerar "como chegamos aqui", portanto, não têm como ou precisam se ajustar para várias aparências). Além do que, além do mais,

— Frank Harrell
fonte

O que significa estar no "modo preditivo de tempo futuro" e por que não precisamos considerar os efeitos de seleção ou multiplicidade?

— 21418 badmax

1

Veja isso . Pense em prever o vencedor de uma partida de futebol à medida que o jogo avança. Sua probabilidade atual de que o time x vença o jogo pode ignorar completamente as previsões anteriores que você fez. Mas, se estiver operando no modo freqüentista, você terá que imaginar o tempo todo que seu time perdeu o jogo e considerar extremos das pontuações em todos os pontos do jogo em que você tende a fazer previsões. As multiplicidades vêm das chances de você dar dados para serem extremas, e isso só é fator nos cálculos freqüentistas.

— 24518 Frank Harrell

6

$\neq$

A função de verossimilhança e o intervalo de confiança associado não são os mesmos (conceito) que uma probabilidade posterior bayesiana construída com um prior que especifica uma distribuição uniforme.

Nas partes 1 e 2 desta resposta, argumenta-se por que a probabilidade não deve ser vista como uma probabilidade posterior bayesiana com base em um plano anterior.

Na parte 3, é apresentado um exemplo em que o intervalo de confiança e o intervalo credível variam amplamente. Também é apontado como essa discrepância surge.

1 Comportamento diferente quando a variável é transformada

$f_x(x)$ $f_\xi(\xi)$ $\xi$ $x=\chi(\xi)$

f_{ξ} (ξ) = f_{x} (χ (ξ)) \frac{d χ}{d ξ} d ξ

$f_\xi(\xi) = f_x(\chi(\xi)) \frac{d\chi}{d\xi} d\xi$

$\bar{x} \neq \chi(\bar{\xi})$ $x_{\max f(x)} \neq \chi(\xi_{\max f(\xi)})$

A função de probabilidade não se transforma dessa maneira . Este é o contraste entre a função de probabilidade e a probabilidade posterior. A função de probabilidade (máxima da) permanece a mesma quando você transforma a variável.

L_{ξ} (ξ) = L_{x} (χ (ξ))

$\mathcal{L}_\xi(\xi) = \mathcal{L}_x(\chi(\xi))$

Relacionado:

O plano anterior é ambíguo . Depende da forma da estatística específica.

Por exemplo, se é distribuído uniformemente (por exemplo, , então não é uma variável distribuída uniforme. $X$ $\mathcal{U}(0,1))$ $X^2$

Não há um único plano anterior ao qual você possa relacionar a função Probabilidade. É diferente quando você define o plano anterior para ou alguma variável transformada como . Pela probabilidade dessa dependência não existir. $X$ $X^2$
Os limites das probabilidades (intervalos de credibilidade) serão diferentes quando você transformar a variável (para funções de probabilidade, esse não é o caso) . Por exemplo, para algum parâmetro e uma transformação monotônica (por exemplo logaritmo), obtém os equivalentes intervalos de probabilidade $a$ $f(a)$
$\begin{array}{ccccc} a_{min} & < & a & < & a_{max} \\ f (a_{min}) & < & f (a) & < & f (a_{max}) \end{array}$ $\begin{array}{ccccc} a_{\min} &<& a &<& a_{\max}\\ f(a_{\min}) &<& f(a) &<& f(a_{\max}) \end{array}$

2 Conceito diferente: os intervalos de confiança são independentes dos anteriores

Suponha que você faça uma amostra de uma variável de uma população com o parâmetro (desconhecido) que (a população com o parâmetro ) é amostrada de uma superpopulação (com valores possivelmente variáveis para ). $X$ $\theta$ $\theta$ $\theta$

Pode-se fazer uma afirmação inversa tentar inferir o que o original pode ter sido baseada na observação de alguns valores para a variável . $\theta$ $x_i$ $X$

Os métodos bayesianos fazem isso supondo uma distribuição prévia para a distribuição de possíveis $\theta$
Isso contrasta com a função de probabilidade e o intervalo de confiança, que são independentes da distribuição anterior.

O intervalo de confiança não usa informações anteriores, como o intervalo credível (confiança não é uma probabilidade).

Independentemente da distribuição anterior (uniforme ou não), o intervalo x% de confiança conterá o parâmetro true em dos casos $x%$ (intervalos de confiança referem-se à taxa de sucesso, erro tipo I, do método, não de um caso particular) .

No caso do intervalo credível, esse conceito ( de tempo em que o intervalo contém o parâmetro true) nem é aplicável, mas podemos interpretá-lo em um sentido freqüentista e, em seguida, observamos que o intervalo credible conterá apenas o parâmetro true do tempo em que o anterior (uniforme) está descrevendo corretamente a superpopulação de parâmetros que podemos encontrar. O intervalo pode efetivamente ter um desempenho maior ou menor que x% (não que isso importe, pois a abordagem bayesiana responde a perguntas diferentes, mas é apenas para observar a diferença). $%$ $x%$

3 Diferença entre confiança e intervalos credíveis

No exemplo abaixo, examinamos a função de probabilidade para a distribuição exponencial em função do parâmetro de taxa , a média da amostra e o tamanho da amostra : $\lambda$ $\bar{x}$ $n$

L (λ, \bar{x}, n) = \frac{n^{n}}{(n - 1)!} x^{n - 1} λ^{n} e^{- λ n \bar{x}}

$\mathcal{L}(\lambda,\bar{x},n) = \frac{n^n}{(n-1)!} x^{n-1} \lambda^n e^{-\lambda n \bar{x}}$

essas funções expressam a probabilidade de observar (para um dado e ) uma média da amostra entre e . $n$ $\lambda$ $\bar{x}$ $\bar{x}+dx$

^{nota: o parâmetro de taxa vai de a (diferente da OP 'solicitação' de a ). O prior neste caso será um prior impróprio . Os princípios, no entanto, não mudam. Estou usando essa perspectiva para facilitar a ilustração. Distribuições com parâmetros entre e geralmente são distribuições discretas (difíceis de desenhar linhas contínuas) ou uma distribuição beta (difícil de calcular) $\lambda$ $0$ $\infty$ $0$ $1$ $0$ $1$}

A imagem abaixo ilustra essa função de probabilidade (o mapa colorido em azul), para o tamanho da amostra , e também desenha os limites dos intervalos de 95% (confiança e credibilidade). $n=4$

Os limites são criados obtendo a função de distribuição cumulativa (unidimensional). Mas, essa integração / acumulação pode ser feita em duas direções .

A diferença entre os intervalos ocorre porque as áreas de 5% são feitas de maneiras diferentes.

O intervalo de confiança de 95% contém valores para os quais o valor observado ocorreria pelo menos em 95% dos casos. Nesse caminho. qualquer que seja o valor , somente julgaremos errado em 95% dos casos. $\lambda$ $\bar{x}$ $\lambda$

Para qualquer você tem norte e sul dos limites (alterando ) 2,5% do peso da função de probabilidade. $\lambda$ $\bar{x}$
O intervalo de 95% credível contém valores que provavelmente causam o valor observado (dado um plano anterior). $\lambda$ $\bar{x}$

Mesmo quando o resultado observado tiver menos de 5% de probabilidade para um dado , o pode estar dentro do intervalo credível. No exemplo em particular, valores mais altos de são 'preferidos' para o intervalo credível. $\bar{x}$ $\lambda$ $\lambda$ $\lambda$

Para qualquer você tem oeste e leste dos limites (alterando ) 2,5% do peso da função de probabilidade. $\bar{x}$ $\lambda$

Um caso em que o intervalo de confiança e o intervalo credível (com base no anterior impróprio) coincidem é para estimar a média de uma variável distribuída gaussiana (a distribuição é ilustrada aqui: https://stats.stackexchange.com/a/351333/164061 ).

Um caso óbvio em que o intervalo de confiança e o intervalo credível não coincidem é ilustrado aqui ( https://stats.stackexchange.com/a/369909/164061 ). O intervalo de confiança para este caso pode ter um ou até ambos os limites (superior / inferior) no infinito.

— Sextus Empiricus
fonte

2

Não fale se o intervalo credível contém o parâmetro true. O intervalo credível está fazendo uma declaração de probabilidade. E o x% para o intervalo de confiança precisa mencionar o que significa replicação, ou seja, o que são "casos".

— 31718 Frank Frankell

O primeiro ponto é o motivo pelo qual alguns bayesianos preferem conforme mencionado na Nota no final do meu problema. // Os intervalos de Wald não fornecem o nível de cobertura anunciado devido às aproximações envolvidas. (Não é precisamente com base na probabilidade.)

B e t a (.5, .5)

$\mathsf{Beta}(.5, .5)$

— BruceET

Não acredito que tenha dito que, com um plano anterior, a probabilidade é a posterior, mesmo que esse possa ser o caso. Consistente em escrever uma resposta no que eu deveria ser o nível de especialização da OP, tentei escrever o primeiro parágrafo da minha resposta com cuidado. Você acredita que o que eu disse está realmente errado ou está dizendo que pode ser mal interpretado?

— BruceET

1

Isso geralmente não é verdade, mas pode parecer assim por causa dos casos especiais mais frequentemente considerados.

ConsidereO intervalo é um intervalo de confiança de para embora não seja aquele que alguém com bom senso usaria. Não coincide com um intervalo credível de da parte posterior de um plano anterior. $X,Y\sim\operatorname{i.i.d}\sim\operatorname{Uniform}[\theta-1/2,\, \theta+1/2].$ $\big(\min\{X,Y\},\max\{X,Y\}\big)$ $50\%$ $\theta,$ $50\%$

A técnica de Fisher de condicionamento em uma estatística auxiliar produz, nesse caso, um intervalo de confiança que coincide com esse intervalo credível.

— Michael Hardy
fonte

0

Pela minha leitura, achei que essa afirmação é verdadeira assintoticamente, ou seja, para um grande tamanho de amostra e se alguém usa um anterior não informativo.

Um exemplo numérico simples parece confirmar isso - os intervalos de probabilidade máxima de 90% do perfil e os intervalos credíveis de 90% de um GLM binomial ML e GLM binomial bayesiano são de fato praticamente idênticos n=1000, embora a discrepância se torne maior para pequenos n:

# simulate some data
set.seed(123)
n = 1000                     # sample size
x1 = rnorm(n)                # two continuous covariates 
x2 = rnorm(n)
z = 0.1 + 2*x1 + 3*x2        # predicted values on logit scale
y = rbinom(n,1,plogis(z))    # bernoulli response variable
d = data.frame(y=y, x1=x1, x2=x2)

# fit a regular GLM and calculate 90% confidence intervals
glmfit = glm(y ~ x1 + x2, family = "binomial", data = d)
library(MASS)
# coefficients and 90% profile confidence intervals :
round(cbind(coef(glmfit), confint(glmfit, level=0.9)), 2) 
#                      5 % 95 %
#   (Intercept) 0.00 -0.18 0.17
# x1            2.04  1.77 2.34
# x2            3.42  3.05 3.81

# fit a Bayesian GLM using rstanarm
library(rstanarm)
t_prior = student_t(df = 3, location = 0, scale = 100) # we set scale to large value to specify an uninformative prior
bfit1 = stan_glm(y ~ x1 + x2, data = d, 
                 family = binomial(link = "logit"), 
                 prior = t_prior, prior_intercept = t_prior,  
                 chains = 1, cores = 4, seed = 123, iter = 10000)
# coefficients and 90% credible intervals :
round(cbind(coef(bfit1), posterior_interval(bfit1, prob = 0.9)), 2) 
#                        5%  95%
#   (Intercept) -0.01 -0.18 0.17
# x1             2.06  1.79 2.37
# x2             3.45  3.07 3.85


# fit a Bayesian GLM using brms
library(brms)
priors = c(
  prior(student_t(3, 0, 100), class = "Intercept"),
  prior(student_t(3, 0, 100), class = "b")
)
bfit2 = brm(
  y ~ x1 + x2,
  data = d,
  prior = priors,
  family = "bernoulli",
  seed = 123 
) 
# coefficients and 90% credible intervals :
summary(bfit2, prob=0.9)
# Population-Level Effects: 
#           Estimate Est.Error l-90% CI u-90% CI Eff.Sample Rhat
# Intercept    -0.01      0.11    -0.18     0.18       2595 1.00
# x1            2.06      0.17     1.79     2.35       2492 1.00
# x2            3.45      0.23     3.07     3.83       2594 1.00


# fit a Bayesian GLM using arm
library(arm)
# we set prior.scale to Inf to specify an uninformative prior
bfit3 = bayesglm(y ~ x1 + x2, family = "binomial", data = d, prior.scale = Inf) 
sims = coef(sim(bfit3, n.sims=1000000))
# coefficients and 90% credible intervals :
round(cbind(coef(bfit3), t(apply(sims, 2, function (col) quantile(col,c(.05, .95))))),2)
#                       5%  95%
#   (Intercept) 0.00 -0.18 0.17
# x1            2.04  1.76 2.33
# x2            3.42  3.03 3.80

Como você pode ver, no exemplo acima, para n=1000, os intervalos de confiança de perfil de 90% de um GLM binomial são praticamente idênticos aos intervalos credíveis de 90% de um GLM binomial bayesiano (a diferença também está dentro dos limites do uso de sementes diferentes e diferentes s de iterações nos ajustes bayesianos, e uma equivalência exata também não pode ser obtida, pois especificar um pré-informativo 100% não informativo também não é possível com rstanarmou brms).

— Tom Wenseleers
fonte

Se um intervalo credível tiver um plano anterior, um intervalo de confiança de 95% é igual a um intervalo credível de 95%?

≠≠\neq

1 Comportamento diferente quando a variável é transformada

2 Conceito diferente: os intervalos de confiança são independentes dos anteriores

3 Diferença entre confiança e intervalos credíveis

$\neq$