Qual é a diferença entre um intervalo de confiança e um intervalo credível?


Respostas:


313

Eu concordo completamente com a explicação de Srikant. Para dar uma olhada mais heurística nele:

As abordagens clássicas geralmente afirmam que o mundo é uma maneira (por exemplo, um parâmetro tem um valor verdadeiro específico) e tentam realizar experimentos cuja conclusão resultante - não importa o valor real do parâmetro - estará correta com pelo menos algum mínimo probabilidade.

Como resultado, para expressar incerteza em nosso conhecimento após um experimento, a abordagem freqüentista usa um "intervalo de confiança" - uma faixa de valores projetados para incluir o valor real do parâmetro com alguma probabilidade mínima, digamos 95%. Um freqüentador projetará o experimento e o procedimento com intervalo de confiança de 95%, de modo que, a cada 100 experimentos iniciados, comece a terminar, pelo menos 95 dos intervalos de confiança resultantes deverão incluir o valor real do parâmetro. Os outros 5 podem estar um pouco errados ou podem ser completamente sem sentido - formalmente, tudo bem no que diz respeito à abordagem, desde que 95 das 100 inferências estejam corretas. (É claro que preferiríamos que eles estivessem um pouco errados, não um absurdo total.)

As abordagens bayesianas formulam o problema de maneira diferente. Em vez de dizer que o parâmetro simplesmente possui um valor verdadeiro (desconhecido), um método bayesiano diz que o valor do parâmetro é fixo, mas foi escolhido a partir de alguma distribuição de probabilidade - conhecida como distribuição de probabilidade anterior. (Outra maneira de dizer isso é que, antes de tomar qualquer medida, o bayesiano atribui uma distribuição de probabilidade, que eles chamam de estado de crença, sobre qual é o verdadeiro valor do parâmetro.) Esse "anterior" pode ser conhecido (imagine tentar estimar o tamanho de um caminhão, se soubermos a distribuição geral dos tamanhos de caminhão na DMV) ou se for uma suposição extraída do nada. A inferência bayesiana é mais simples - coletamos alguns dados e depois calculamos a probabilidade de diferentes valores do parâmetro GIVEN the data. Essa nova distribuição de probabilidade é chamada de "probabilidade a posteriori" ou simplesmente "posterior". As abordagens bayesianas podem resumir sua incerteza, fornecendo uma gama de valores na distribuição de probabilidade posterior que inclui 95% da probabilidade - isso é chamado de "intervalo de credibilidade de 95%".

Um partidário bayesiano pode criticar o intervalo de confiança freqüentador como este: "Então, e se 95 de 100 experimentos produzirem um intervalo de confiança que inclua o valor real? Eu não me importo com 99 experimentos que NÃO FIZ; eu me importo com esse experimento EU FIZ. Sua regra permite que 5 das 100 sejam absurdas completas [valores negativos, valores impossíveis], enquanto os outros 95 estiverem corretos; isso é ridículo. "

Um obstinado freqüentista pode criticar o intervalo de credibilidade bayesiano como este: "Então, e se 95% da probabilidade posterior estiver incluída nessa faixa? E se o valor verdadeiro for, digamos, 0,37? Se for, seu método será executado. do início ao fim, estará errado 75% do tempo. Sua resposta é: 'Bem, tudo bem, porque, de acordo com o anterior, é muito raro o valor ser 0,37', e pode ser que sim, mas eu quero um método que funciona para QUALQUER valor possível do parâmetro.Eu não ligo para os 99 valores do parâmetro que NÃO TEM; eu me preocupo com o único valor verdadeiro que ele possui.Ah, também, a propósito, suas respostas estão corretas se o anterior estiver correto. Se você simplesmente retirá-lo do nada, porque parece certo, pode estar longe. "

Em certo sentido, esses dois partidários estão corretos em suas críticas aos métodos uns dos outros, mas eu recomendaria que você pensasse matematicamente sobre a distinção - como Srikant explica.


Aqui está um exemplo extenso dessa palestra que mostra a diferença precisamente em um exemplo discreto.

Quando eu era criança, minha mãe costumava me surpreender pedindo que um pote de biscoitos de chocolate fosse entregue por correio. A empresa de entrega estocou quatro tipos diferentes de recipientes para biscoitos - tipo A, tipo B, tipo C e tipo D, e todos estavam no mesmo caminhão e você nunca tinha certeza de que tipo obteria. Cada jarra tinha exatamente 100 cookies, mas o recurso que distinguia os diferentes potes de biscoitos eram suas respectivas distribuições de gotas de chocolate por cookie. Se você pegasse um pote e pegasse um único cookie uniformemente aleatoriamente, estas são as distribuições de probabilidade que você obteria no número de chips:

texto alternativo

Um pote de biscoitos tipo A, por exemplo, possui 70 biscoitos com dois chips cada e nenhum cookie com quatro chips ou mais! Um pote de biscoitos tipo D possui 70 biscoitos com um chip cada. Observe como cada coluna vertical é uma função de massa de probabilidade - a probabilidade condicional do número de fichas que você obteria, dado que o jar = A, ou B, ou C ou D, e cada coluna soma 100.

Eu adorava jogar um jogo assim que o entregador deixava meu novo pote de biscoitos. Eu puxava um único biscoito aleatoriamente do pote, contava os chips no biscoito e tentava expressar minha incerteza - no nível de 70% - de quais jarros poderiam ser. Portanto, é a identidade do jar (A, B, C ou D) que é o valor do parâmetro que está sendo estimado. O número de fichas (0, 1, 2, 3 ou 4) é o resultado, a observação ou a amostra.

Originalmente, joguei este jogo usando um intervalo de confiança de 70%, freqüentista. Esse intervalo precisa garantir que, independentemente do valor verdadeiro do parâmetro, ou seja, qual jarro de cookie recebi, o intervalo cubra esse valor verdadeiro com pelo menos 70% de probabilidade.

Um intervalo, é claro, é uma função que relaciona um resultado (uma linha) a um conjunto de valores do parâmetro (um conjunto de colunas). Mas, para construir o intervalo de confiança e garantir 70% de cobertura, precisamos trabalhar "verticalmente" - olhando cada coluna sucessivamente e certificando-se de que 70% da função de massa de probabilidade seja coberta de modo que 70% das vezes, A identidade da coluna fará parte do intervalo resultante. Lembre-se de que são as colunas verticais que formam um pmf

Então, depois de fazer esse procedimento, acabei com estes intervalos:

insira a descrição da imagem aqui

Por exemplo, se o número de fichas no cookie que eu desenhar for 1, meu intervalo de confiança será {B, C, D}. Se o número for 4, meu intervalo de confiança será {B, C}. Observe que, como cada coluna é igual a 70% ou mais, não importa em que coluna estamos realmente (não importa em que jarro o entregador caiu), o intervalo resultante desse procedimento incluirá o jar correto com pelo menos 70% de probabilidade.

Observe também que o procedimento que segui na construção dos intervalos tinha alguma discrição. Na coluna do tipo B, eu poderia facilmente ter certeza de que os intervalos que incluíam B seriam 0,1,2,3 em vez de 1,2,3,4. Isso resultaria em 75% de cobertura para os frascos tipo B (12 + 19 + 24 + 20), ainda atingindo o limite inferior de 70%.

Porém, minha irmã Bayesia achou essa abordagem louca. "Você precisa considerar o entregador como parte do sistema", disse ela. "Vamos tratar a identidade do frasco como uma variável aleatória em si, e vamos assumir que o entregador escolhe entre eles de maneira uniforme - o que significa que ele tem todos os quatro em seu caminhão e, quando chega em nossa casa, escolhe um aleatoriamente, cada um com probabilidade uniforme ".

"Com essa suposição, agora vamos examinar as probabilidades conjuntas de todo o evento - o tipo de jar e o número de chips que você extrai do seu primeiro cookie", disse ela, desenhando a tabela a seguir:

insira a descrição da imagem aqui

Observe que a tabela inteira agora é uma função de massa de probabilidade - o que significa que a tabela inteira soma 100%.

"Ok", eu disse, "para onde você está indo?"

"Você está analisando a probabilidade condicional do número de fichas, considerando o pote", disse Bayesia. "Está tudo errado! O que realmente importa é a probabilidade condicional de qual jar é, dado o número de fichas no cookie! Seu intervalo de 70% deve simplesmente incluir os frascos da lista que, no total, têm 70% de probabilidade de serem o verdadeiro frasco. Isso não é muito mais simples e mais intuitivo? "

"Claro, mas como calculamos isso?" Eu perguntei.

"Digamos que sabemos que você tem 3 chips. Então podemos ignorar todas as outras linhas da tabela e simplesmente tratá-la como uma função de massa de probabilidade. Precisamos escalar as probabilidades proporcionalmente para que cada linha seja 100 , Apesar." Ela fez:

insira a descrição da imagem aqui

"Observe como cada linha agora é um pmf e soma 100%. Invertemos a probabilidade condicional do que você começou - agora é a probabilidade do homem ter deixado cair um certo pote, dado o número de fichas em o primeiro cookie ".

"Interessante", eu disse. "Então agora nós apenas circulamos jarros suficientes em cada linha para obter até 70% de probabilidade?" Fizemos exatamente isso, fazendo esses intervalos de credibilidade:

insira a descrição da imagem aqui

Cada intervalo inclui um conjunto de jarros que, a posteriori , somam 70% de probabilidade de ser o jarro verdadeiro.

"Bem, espere", eu disse. "Não estou convencido. Vamos colocar os dois tipos de intervalos lado a lado e compará-los para cobertura e, assumindo que o entregador escolha cada tipo de jarro com igual probabilidade, credibilidade".

Aqui estão eles:

Intervalos de confiança:

insira a descrição da imagem aqui

Intervalos de credibilidade:

insira a descrição da imagem aqui

"Viu como seus intervalos de confiança são loucos?" disse Bayesia. "Você nem tem uma resposta sensata quando desenha um biscoito com zero fichas! Você apenas diz que é o intervalo vazio. Mas isso é obviamente errado - deve ser um dos quatro tipos de frascos. Como você pode viver com isso?" você mesmo, declarando um intervalo no final do dia quando você sabe que o intervalo está errado? E o mesmo acontece quando você puxa um cookie com 3 chips - seu intervalo está correto apenas 41% das vezes. intervalo é besteira. "

"Bem, ei", respondi. "Está correto 70% das vezes, independentemente do jarro que o entregador deixou. Isso é muito mais do que você pode dizer sobre seus intervalos de credibilidade. E se o jarro for do tipo B? Então, seu intervalo estará errado 80% das vezes e corrija apenas 20% das vezes! "

"Isso parece ser um grande problema", continuei, "porque seus erros serão correlacionados com o tipo de jar. Se você enviar 100 robôs 'Bayesianos' para avaliar que tipo de jar você possui, cada robô amostrando um cookie, você está me dizendo que, nos dias do tipo B, você espera que 80 dos robôs obtenham a resposta errada, cada um com> 73% de crença em sua conclusão incorreta! Isso é problemático, especialmente se você deseja que a maioria dos robôs concorde com o resposta correta."

"Além disso, tivemos que assumir que o entregador se comporta de maneira uniforme e seleciona cada tipo de frasco aleatoriamente", eu disse. "De onde isso veio? E se estiver errado? Você não falou com ele; não o entrevistou. No entanto, todas as suas declarações de probabilidade a posteriori se baseiam nessa afirmação sobre o comportamento dele. Eu não tenho que fazer quaisquer dessas suposições, e meu intervalo cumpre seu critério mesmo no pior caso ".

"É verdade que meu intervalo de credibilidade tem um desempenho ruim em frascos tipo B", disse Bayesia. "Mas e daí? Os frascos tipo B acontecem apenas 25% das vezes. É equilibrado pela minha boa cobertura dos frascos tipo A, C e D. E eu nunca publico bobagens."

"É verdade que meu intervalo de confiança apresenta um desempenho ruim quando eu desenhei um cookie com zero fichas", eu disse. "Mas e daí? Os cookies sem chip acontecem, no máximo, 27% das vezes no pior dos casos (um jarro do tipo D). Posso me dar ao luxo de dar um disparate a esse resultado, porque o jar NÃO resultará em uma resposta errada mais de 30 % do tempo."

"A coluna é importante", eu disse.

"A linha é importante", disse Bayesia.

"Eu posso ver que estamos em um impasse", eu disse. "Nós dois estamos corretos nas declarações matemáticas que estamos fazendo, mas discordamos sobre a maneira apropriada de quantificar a incerteza".

"Isso é verdade", disse minha irmã. "Quer um biscoito?"


17
Boa resposta - apenas um ponto menor, você diz ".... Em vez de dizer que o parâmetro tem um valor verdadeiro, um método bayesiano diz que o valor é escolhido a partir de uma distribuição de probabilidade ....." Isso não é verdade. Um bayesiano se ajusta à distribuição de probabilidade para expressar a incerteza sobre o valor fixo verdadeiro, desconhecido. Isso diz quais valores são plausíveis, considerando o que era conhecido antes da observação dos dados. A declaração probabilidade real é , onde é o verdadeiro valor, e a hipótese, com base nas informações . θ 0 θ IPr[θ0(θ,θ+dθ)|I]θ0θI
probabilityislogic

11
... continua ... mas é muito mais conveniente escrever , com o entendimento do que significa "em segundo plano". Claramente, isso pode causar muita confusão. p(θ)
probabilityislogic

16
desculpe reviver este post super antigo, mas uma pergunta rápida, no seu post na seção em que o frequentista critica a abordagem bayesiana, você diz: "E se o valor verdadeiro for, digamos, 0,37? Se for, seu método, execute start para terminar, será errado 75% das vezes. " Como você conseguiu esses números? como 0,37 corresponde a 75% errado? Isso está fora de algum tipo de curva de probabilidade? Obrigado
BYS2

11
Ilustração legal! Como os intervalos de confiança e credibilidade do modelo de lascas de chocolate seriam ajustados se pudéssemos provar n biscoitos da jarra? E podemos avaliar a precisão das duas abordagens à medida que acumulamos dados em frequência relativa. de frascos que são entregues? Suponho que a abordagem bayesiana fará melhores previsões quando tivermos certeza da distribuição anterior (digamos, após ~ 30 entregas?). Mas se o dbn anterior mudasse abruptamente (digamos que um novo entregador aceite o cargo), a abordagem freqüentista teria a vantagem.
robertf

4
@ BYS2, quando o autor diz isso "What if the true value is, say, 0.37? If it is, then your method, run start to finish, will be WRONG 75% of the time", eles estão apenas dando exemplos de números que eles criaram. Nesse caso em particular, eles se refeririam a alguma distribuição anterior que tinha um valor muito baixo em 0,37, com a maior parte de sua densidade de probabilidade em outros lugares. E assumimos que nosso exemplo de distribuição teria um desempenho muito ruim quando o valor real do parâmetro fosse 0,37, da mesma forma que os intervalos de credibilidade de Bayesia falharam miseravelmente quando o jar era do tipo B.
Garrett

32

Meu entendimento é o seguinte:

fundo

xθxθxf(x|θ)

Problema de inferência

θx

Intervalos de confiança

θxθθ^

x

I[lb(x),ub(x)]

P(θI)=0.95

Um intervalo construído como o acima é o que é chamado de intervalo de confiança. Como o valor verdadeiro é desconhecido, mas fixo, o valor verdadeiro está no intervalo ou fora dele. O intervalo de confiança é uma afirmação sobre a probabilidade de que o intervalo que obtemos realmente tenha o verdadeiro valor do parâmetro. Assim, a declaração de probabilidade é sobre o intervalo (ou seja, as chances desse intervalo que tem o valor verdadeiro ou não) e não sobre a localização do valor do parâmetro verdadeiro.

Nesse paradigma, não faz sentido falar sobre a probabilidade de um valor verdadeiro ser menor ou maior que algum valor, pois o valor verdadeiro não é uma variável aleatória.

Intervalos credíveis

f(θ)

f(θ|)f(θ)f(x|θ)

Chegamos então a uma estimativa pontual usando a distribuição posterior (por exemplo, use a média da distribuição posterior). No entanto, como nesse paradigma, o verdadeiro vetor de parâmetro é uma variável aleatória, também queremos saber a extensão da incerteza que temos em nossa estimativa pontual. Assim, construímos um intervalo para que o seguinte seja válido:

P(l(θ)θub(θ))=0.95

O acima é um intervalo credível.

Sumário

Intervalos credíveis capturam nossa incerteza atual na localização dos valores dos parâmetros e, portanto, podem ser interpretados como uma declaração probabilística sobre o parâmetro.

Em contraste, os intervalos de confiança capturam a incerteza sobre o intervalo que obtivemos (isto é, se ele contém o valor verdadeiro ou não). Portanto, eles não podem ser interpretados como uma afirmação probabilística sobre os valores reais dos parâmetros.


2
Um intervalo de confiança de 95%, por definição, cobre o valor verdadeiro do parâmetro em 95% dos casos, conforme indicado corretamente. Portanto, a chance de seu intervalo cobrir o valor verdadeiro do parâmetro é de 95%. Às vezes, você pode dizer algo sobre a chance de o parâmetro ser maior ou menor que qualquer um dos limites, com base nas suposições feitas ao construir o intervalo (geralmente a distribuição normal de sua estimativa). Você pode calcular P (theta> ub) ou P (ub <theta). A afirmação é sobre o limite, de fato, mas você pode fazê-lo.
Joris Meys

9
Joris, não posso concordar. Sim, para qualquer valor do parâmetro, haverá> 95% de probabilidade de que o intervalo resultante cubra o valor verdadeiro. Isso não significa que, após fazer uma observação específica e calcular o intervalo, ainda haja 95% de probabilidade condicional, dados os dados de que esse intervalo cobre o valor real. Como eu disse abaixo, formalmente seria perfeitamente aceitável que um intervalo de confiança cuspisse [0, 1] 95% do tempo e o vazio definisse os outros 5%. Nas ocasiões em que você definiu o intervalo como vazio, não há 95% de probabilidade de o valor verdadeiro estar dentro!
Keith Winstein

@ Keith: Entendo o seu ponto, embora um conjunto vazio não seja um intervalo por definição. A probabilidade de um intervalo de confiança também não depende dos dados, pelo contrário. Todo intervalo de confiança vem de uma amostra aleatória diferente, portanto, a chance de sua amostra ser desenhada de forma que o IC de 95% no qual se baseia não cubra o valor real do parâmetro seja de apenas 5%, independentemente dos dados.
Joris Meys

11
Joris, eu estava usando "dados" como sinônimo de "amostra", então acho que concordamos. O que quero dizer é que é possível estar em situações, depois de coletar a amostra, onde você pode provar com absoluta certeza que seu intervalo está errado - que ele não cobre o valor real. Isso não significa que não seja um intervalo de confiança válido de 95%. Portanto, você não pode dizer que o parâmetro de confiança (95%) diz qualquer coisa sobre a probabilidade de cobertura de um intervalo específico depois de fazer o experimento e obter o intervalo. Somente uma probabilidade a posteriori, informada por um prior, pode falar disso.
Keith Winstein

4
θ θθ θ θf(θ)Pr(θ is in the interval (θ,θ+dθ)|I)=f(θ)dθX

13

Discordo da resposta de Srikant em um ponto fundamental. Srikant afirmou o seguinte:

"Problema de inferência: Seu problema de inferência é: Quais valores de θ são razoáveis, dados os dados observados x?"

De fato, este é o problema da influência das Baías. Nas estatísticas bayesianas, procuramos calcular P (θ | x), isto é, a probabilidade do valor do parâmetro, dados os dados observados (amostra). O INTERVALO CREDÍVEL é um intervalo de θ que tem uma chance de 95% (ou outro) de conter o valor verdadeiro de θ, dadas as várias suposições subjacentes ao problema.

O PROBLEMA FREQUENTE DE INFERÊNCIA é este:

Os dados observados x são razoáveis, dados os valores hipotéticos de θ?

Nas estatísticas freqüentistas, procuramos calcular P (x | θ), isto é, a probabilidade de observar os dados (amostra), dados os valores dos parâmetros hipotéticos. O INTERVALO DE CONFIANÇA (talvez um nome impróprio) é interpretado como: se o experimento que gerou a amostra aleatória x fosse repetido várias vezes, 95% (ou outro) de tais intervalos construídos a partir dessas amostras aleatórias conteria o valor real do parâmetro.

Mexer com sua cabeça? Esse é o problema das estatísticas freqüentistas e a principal coisa que as estatísticas bayesianas têm a seu favor.

Como Sikrant aponta, P (θ | x) e P (x | θ) estão relacionados da seguinte forma:

P (θ | x) = P (θ) P (x | θ)

Onde P (θ) é a nossa probabilidade anterior; P (x | θ) é a probabilidade dos dados condicionais àqueles anteriores e P (θ | x) é a probabilidade posterior. O P anterior (θ) é inerentemente subjetivo, mas esse é o preço do conhecimento sobre o Universo - em um sentido muito profundo.

As outras partes das respostas de Sikrant e Keith são excelentes.


Tecnicamente, você está correto, mas observe que o intervalo de confiança fornece o conjunto de valores de parâmetros para os quais a hipótese nula é verdadeira. Assim, "os dados observados são razoáveis, considerando nossa hipótese sobre teta?" pode ser reformulado como "Quais valores verdadeiros de teta seriam uma hipótese compatível, dados os dados observados x?" Observe que a pergunta reformulada não implica necessariamente que se está assumindo que teta é uma variável aleatória. A pergunta reformulada explora o fato de que realizamos testes de hipótese nula, inspecionando se o valor hipotético cai no intervalo de confiança.

@svadali - intervalos de confiança avaliam dados para uma hipótese fixa. Assim, ao alterar a parte "fixa" da equação, se você não levar em conta a probabilidade da hipótese antes de observar seus dados, é provável que você tenha inconsistências e resultados incoerentes. A probabilidade condicional não é "restrita" ao alterar as condições (por exemplo, alterando as condições, você pode alterar uma probabilidade condicional de 0 a 1). A probabilidade anterior leva em consideração essa arbitrariedade. O condicionamento em X é feito porque temos certeza de que X ocorreu - observamos X!
probabilityislogic

13

As respostas fornecidas anteriormente são muito úteis e detalhadas. Aqui estão os meus US $ 0,25.

Intervalo de confiança (IC) é um conceito baseado na definição clássica de probabilidade (também chamada de "definição frequentista") de que a probabilidade é semelhante à proporção e é baseada no sistema axiomático de Kolmogrov (e outros).

Intervalos credíveis (Densidade Posterior Mais Alta, HPD) podem ser considerados como tendo raízes na teoria da decisão, com base nos trabalhos de Wald e de Finetti (e muito estendidos por outros).

Como as pessoas neste segmento fizeram um excelente trabalho em dar exemplos e a diferença de hipóteses no caso bayesiano e freqüentista, enfatizarei apenas alguns pontos importantes.

  1. Os ICs se baseiam no fato de que deve ser feita inferência em todas as repetições possíveis de um experimento que possa ser visto e NÃO apenas nos dados observados, onde os HPDs se baseiam TOTALMENTE nos dados observados (e obv. Nossas suposições anteriores).

  2. θ

  3. Como os ICs não condicionam os dados observados (também chamados de "Princípio da Condicionalidade"), pode haver exemplos paradoxais. Fisher era um grande defensor do PC e também encontrou muitos exemplos paradoxais quando isso NÃO foi seguido (como no caso do IC). Esta é a razão pela qual ele usou valores-p para inferência, em oposição ao IC. Na sua opinião, os valores de p eram baseados nos dados observados (muito pode ser dito sobre os valores de p, mas esse não é o foco aqui). Dois dos exemplos paradoxais muito famosos são: (4 e 5)

  4. XiN(μ,σ2)i{1,,n}μn0.5σ2+0.0005σ2n=10000.001σ20.5σ2+0.0005σ20.001σ2n=1000nμσnn

  5. nn=2X1,X2U(θ1/2,θ+1/2)θX1θU(1/2,1/2)12(X1+X2)x¯θθc>0Probθ(c<=x¯θ<=c)=1α(99%)(x¯c,x¯+c)θx¯θθX1=0X2=1|X1X2|=1(X1,X2)θProb(|X1X2|=1)=0|X1X2||X1X2||X1X2|

  6. X2X1X2X1θX2X1θX2X1θInferência fiducial (também chamada de seu maior fracasso, cf Zabell, Stat. Sci. 1992), mas não se tornou popular devido à falta de generalidade e flexibilidade. Fisher estava tentando encontrar uma maneira diferente das estatísticas clássicas (da Neyman School) e da escola bayesiana (daí o famoso ditado de Savage: "Fisher queria fazer uma omelete bayesiana (ou seja, usando CP) sem quebrar os ovos bayesianos") . O folclore (sem prova) diz: Fisher em seus debates atacou Neyman (por erros de tipo I e tipo II e IC), chamando- o de cara de controle de qualidade em vez de cientista , pois os métodos de Neyman não condicionavam os dados observados, mas sim em todas as repetições possíveis.

  7. Os estatísticos também querem usar o Princípio da Suficiência (SP), além do PC. Mas SP e CP juntos implicam o Princípio de Verossimilhança (LP) (cf. Birnbaum, JASA, 1962) ou seja, dados CP e SP, é preciso ignorar o espaço da amostra e examinar apenas a função de verossimilhança. Portanto, precisamos apenas olhar para os dados fornecidos e NÃO para todo o espaço amostral (observar todo o espaço amostral é semelhante à amostragem repetida). Isso levou a conceitos como Observed Fisher Information (cf. Efron e Hinkley, AS, 1978) que medem as informações sobre os dados de uma perspectiva freqüentista. A quantidade de informações nos dados é um conceito bayesiano (e, portanto, relacionado ao HPD), em vez de CI.

  8. Kiefer fez alguns trabalhos fundamentais sobre CI no final dos anos 1970, mas suas extensões não se tornaram populares. Uma boa fonte de referência é Berger ("Poderia Fisher, Neyman e Jeffreys concordar sobre o teste de hipóteses", Stat Sci, 2003).


Resumo:

(Como apontado por Srikant e outros) Os
ICs não podem ser interpretados como probabilidade e eles não dizem nada sobre o parâmetro desconhecido GIVEN os dados observados. ICs são declarações sobre experimentos repetidos.

HPDs são intervalos probabilísticos com base na distribuição posterior do parâmetro desconhecido e têm uma interpretação baseada em probabilidade com base nos dados fornecidos.

Propriedade frequentista (amostragem repetida) é uma propriedade desejável e os HPDs (com antecedentes apropriados) e o IC os possuem. As condições de HPDs nos dados fornecidos também respondem às perguntas sobre o parâmetro desconhecido

(Objetivo NÃO Subjetivo) Os bayesianos concordam com os estatísticos clássicos de que existe um único valor VERDADEIRO do parâmetro. No entanto, ambos diferem na maneira como fazem inferência sobre esse parâmetro verdadeiro.

Os HPDs bayesianos nos fornecem uma boa maneira de condicionar os dados, mas se eles não concordam com as propriedades freqüentes do IC, eles não são muito úteis (analogia: uma pessoa que usa HPDs (com alguns anteriores) sem uma boa propriedade freqüentista) ser condenado como um carpinteiro que só se importa com o martelo e esquece a chave de fenda)

Por fim, vi pessoas neste tópico (comentários do Dr. Joris: "... suposições envolvidas implicam um prévio difuso, isto é, uma completa falta de conhecimento sobre o parâmetro verdadeiro") falando sobre falta de conhecimento sobre o parâmetro verdadeiro sendo equivalente a usar um difuso anterior. Não sei se posso concordar com a afirmação (o Dr. Keith concorda comigo). Por exemplo, no caso de modelos lineares básicos, algumas distribuições podem ser obtidas usando um prior uniforme (o que algumas pessoas chamam de difuso), MAS NÃO significa que a distribuição uniforme possa ser considerada como LOW Information PRIOR. Em geral, prioritário NÃO-INFORMATIVO (Objetivo) não significa que ele tenha pouca informação sobre o parâmetro.



Nota:Muitos desses pontos são baseados nas palestras de um dos proeminentes bayesianos. Eu ainda sou um estudante e poderia tê-lo entendido mal de alguma forma. Por favor, aceite minhas desculpas com antecedência.


"O freqüentador ESTÁ LIMPO A PERDER" Olhando para a resposta mais votada, eu assumiria que isso depende da função do utilitário (por exemplo, não se a otimização do arrependimento estiver acontecendo). Intuitivamente, também pode depender da capacidade de determinar a função anterior ...
Abel Molina

4
"o freqüentista é obrigado a perder" ... * condicionado a ter o prévio apropriado * (o que, em geral, não é tão fácil). Exemplo perfeito: viciados em jogos de apostas têm 99% de certeza de que sua sorte mudará desta vez. Aqueles que incorporam isso antes em sua análise de decisão tendem a não se sair bem a longo prazo.
Cliff AB

11
Não acho que você deva abreviar os intervalos de confiança como ICs em uma resposta sobre a distinção entre intervalos confiáveis ​​e intervalos de confiança.
Hugh

10

Sempre divertido se envolver em um pouco de filosofia. Gosto bastante da resposta de Keith, mas diria que ele está assumindo a posição de "senhor esquecido Bayesia". A má cobertura quando o tipo B e o tipo C só podem ocorrer se ele aplicar a mesma distribuição de probabilidade em cada tentativa e se recusar a atualizar a sua antes.

Você pode ver isso claramente, pois os frascos do tipo A e do tipo D fazem "previsões definidas" por assim dizer (para 0-1 e 2-3 chips, respectivamente), enquanto os frascos do tipo B e C basicamente fornecem uma distribuição uniforme dos chips. Assim, nas repetições do experimento com algum "frasco verdadeiro" fixo (ou se amostramos outro biscoito), uma distribuição uniforme de chips fornecerá evidências para os frascos do tipo B ou C.

KL(B||C)0.006KL(C||B)12×0.006=0.11

Agora, o que acontece com esses intervalos confiáveis? Agora, na verdade, temos 100% de cobertura de "B ou C"! E os intervalos freqüentistas? A cobertura é inalterada, pois todos os intervalos continham B e C ou nenhum, portanto ainda está sujeita às críticas na resposta de Keith - 59% e 0% para os chips 3 e 0 observados.

(0+99+99+59+99)/5=71.2(98+60+66+97)/4=80.3

Outro ponto que eu gostaria de enfatizar é que o bayesiano não está dizendo que "o parâmetro é aleatório" atribuindo uma distribuição de probabilidade. Para o bayesiano (bem, pelo menos para mim, de qualquer maneira), uma distribuição de probabilidade é uma descrição do que se sabe sobre esse parâmetro. A noção de "aleatoriedade" não existe realmente na teoria bayesiana, apenas as noções de "saber" e "não saber". Os "conhecidos" entram nas condições e os "desconhecidos" são o que calculamos as probabilidades, se for de interesse, e marginalizamos se for um incômodo. Portanto, um intervalo credível descreve o que é conhecido sobre um parâmetro fixo, calculando a média do que não é conhecido sobre ele. Portanto, se assumirmos a posição da pessoa que empacotou o pote de biscoitos e soube que era do tipo A, o intervalo de credibilidade seria apenas [A], independentemente da amostra, e não importa quantas amostras foram coletadas. E eles seriam 100% precisos!

Um intervalo de confiança é baseado na "aleatoriedade" ou variação existente nas diferentes amostras possíveis. Como tal, a única variação que eles levam em consideração é a de uma amostra. Portanto, o intervalo de confiança é inalterado para a pessoa que empacotou o pote de biscoitos e o novo era do tipo A. Portanto, se você tirasse o biscoito com 1 chip do pote do tipo A, o frequentista afirmaria com 70% de confiança que o tipo era não A, mesmo sabendo que o frasco é do tipo A! (se eles mantiveram sua ideologia e ignoraram seu senso comum). Para ver que esse é o caso, observe que nada nessa situação mudou a distribuição da amostra - simplesmente adotamos a perspectiva de uma pessoa diferente com informações baseadas em "não dados" sobre um parâmetro.

Os intervalos de confiança serão alterados somente quando os dados forem alterados ou a distribuição do modelo / amostragem for alterada. os intervalos de credibilidade podem mudar se outras informações relevantes forem levadas em consideração.

Observe que esse comportamento maluco certamente não é o que um proponente de intervalos de confiança realmente faria; mas demonstra uma fraqueza na filosofia subjacente ao método em um caso particular. Intervalos de confiança funcionam melhor quando você não sabe muito sobre um parâmetro além das informações contidas em um conjunto de dados. Além disso, os intervalos de credibilidade não serão capazes de melhorar muito os intervalos de confiança, a menos que haja informações anteriores que o intervalo de confiança não possa levar em consideração, ou seja difícil encontrar estatísticas suficientes e auxiliares.


mmmm

m

Sim, no limite. Então, para uma ou apenas duas amostras, os ICs não significam nada, certo? Então, qual é o sentido de calcular o IC, se eu não tiver toneladas de amostras?
abacate

3
@ loganecolss - é por isso que sou bayesiano.
probabilityislogic

2
@nazka - mais ou menos. Eu diria que é sempre melhor usar uma abordagem bayesiana, independentemente da quantidade de dados que você possui. Se isso puder ser bem aproximado por um procedimento freqüentista, use-o. Bayesiano não é sinônimo de lento.
probabilityislogic

6

Pelo que entendi: Um intervalo confiável é uma declaração do intervalo de valores para a estatística de interesse que permanece plausível, dada a amostra específica de dados que realmente observamos. Um intervalo de confiança é uma declaração da frequência com a qual o valor verdadeiro está no intervalo de confiança quando o experimento é repetido um grande número de vezes, sempre com uma amostra diferente de dados da mesma população subjacente.

Normalmente, a pergunta que queremos responder é "quais valores da estatística são consistentes com os dados observados" e o intervalo credível fornece uma resposta direta a essa pergunta - o verdadeiro valor da estatística está em um intervalo credível de 95% com probabilidade 95 % O intervalo de confiança não fornece uma resposta direta a essa pergunta; não é correto afirmar que a probabilidade de que o valor real da estatística esteja dentro do intervalo de confiança de 95% é de 95% (a menos que coincida com o intervalo credível). No entanto, essa é uma interpretação muito comum de um intervalo de confiança freqüentista, pois é a interpretação que seria uma resposta direta à pergunta.

O artigo de Jayne que discuto em outra pergunta fornece um bom exemplo disso (exemplo nº 5), onde um intervalo de confiança perfeitamente correto é construído, onde a amostra específica de dados em que se baseia exclui qualquer possibilidade do verdadeiro valor da estatística estar no intervalo de confiança de 95%! Isso é apenas um problema se o intervalo de confiança for incorretamente interpretado como uma declaração de valores plausíveis da estatística com base na amostra específica que observamos.

No final do dia, é uma questão de "cavalos para percursos", e qual intervalo é melhor depende da pergunta que você deseja responder - basta escolher o método que responde diretamente a essa pergunta.

Eu suspeito que os intervalos de confiança são mais úteis ao analisar experimentos repetíveis (definidos) (como essa é apenas a suposição subjacente ao intervalo de confiança), e os intervalos credíveis são melhores ao analisar dados observacionais, mas isso é apenas uma opinião (eu uso os dois tipos de intervalos em meu próprio trabalho, mas também não me descreveria como especialista).


6
O problema dos intervalos de confiança em experimentos repetidos é que, para que eles funcionem, as condições do experimento repetível precisam permanecer as mesmas (e quem acreditaria nisso?), Enquanto o intervalo bayesiano (se usado corretamente) condiciona o dados observados e, portanto, fornece permissões para alterações que ocorrem no mundo real (via dados). Penso que são as regras de condicionamento das estatísticas bayesianas que dificultam o desempenho (acho que é impossível: apenas a equivalência pode ser alcançada), e o mecanismo automático que ela consegue fazer com que pareça tão liso.
probabilityislogic

3

P(θCI)

Portanto, sim, você pode dizer 'Se você repetir o experimento várias vezes, aproximadamente 95% dos ICs de 95% cobrirão o parâmetro true'. Embora em bayesiano você diga "o verdadeiro valor da estatística está em um intervalo credível de 95% com probabilidade de 95%", no entanto, essa probabilidade de 95% (em bayesiano) é apenas uma estimativa. (Lembre-se de que é baseado na distribuição da condição, dados esses dados específicos, não na distribuição da amostra). Este estimador deve vir com um erro aleatório devido a amostra aleatória.

Bayesiano tenta evitar o problema de erro tipo I. Os bayesianos sempre dizem que não faz sentido falar sobre o erro tipo I em bayesiano. Isso não é inteiramente verdade. Os estatísticos sempre querem medir a possibilidade ou erro de que "Seus dados sugerem que você tome uma decisão, mas a população sugere o contrário". Isso é algo que o bayesiano não pode responder (detalhes omitidos aqui). Infelizmente, isso pode ser a coisa mais importante que o estatístico deve responder. Os estatísticos não apenas sugerem uma decisão. Os estatísticos também devem ser capazes de lidar com o quanto a decisão pode dar errado.

Eu tenho que inventar a tabela e os termos a seguir para explicar o conceito. Espero que isso ajude a explicar a diferença entre o intervalo de confiança e o conjunto credível.

P(θ0|Datan)θ0P(θ0)P(Datan;θ)θ^P(θ^n;θ)nP(Datan|θ)P(Datan;θ)P(θ^n;θ)P(θ0|Datan)

Intervalo de Confiança vs Conjunto Credível

O '???????' explica por que não somos capazes de avaliar o erro tipo I (ou algo semelhante) em bayesiano.

Observe também que conjuntos confiáveis ​​podem ser usados ​​para aproximar os intervalos de confiança em algumas circunstâncias. No entanto, esta é apenas uma aproximação matemática. A interpretação deve ser frequente. A interpretação bayesiana neste caso não funciona mais.


P(x|θ)

Concordo com a conclusão de Dikran Marsupial . Se você é o revisor da FDA, sempre quer saber a possibilidade de aprovar um pedido de medicamento, mas o medicamento não é realmente eficaz. Essa é a resposta que o bayesiano não pode fornecer, pelo menos no clássico / típico bayesiano.


3

Confiança genérica e consistente e regiões credíveis. http://dx.doi.org/10.6084/m9.figshare.1528163 com código em http://dx.doi.org/10.6084/m9.figshare.1528187

Fornece uma descrição dos intervalos credíveis e dos intervalos de confiança para a seleção do conjunto, juntamente com o código R genérico, para calcular a função de probabilidade e alguns dados observados. Além disso, propõe uma estatística de teste que fornece intervalos credíveis e de confiança de tamanho ideal, consistentes entre si.

Em resumo e evitando fórmulas. O intervalo credível bayesiano é baseado na probabilidade dos parâmetros dados os dados . Ele coleta os parâmetros com alta probabilidade no conjunto / intervalo credível. O intervalo de 95% credível contém parâmetros que juntos têm uma probabilidade de 0,95, dados os dados.

O intervalo de confiança frequentista é baseado na probabilidade dos dados dados alguns parâmetros . Para cada parâmetro (possivelmente um número infinito de vezes), ele primeiro gera o conjunto de dados que provavelmente serão observados, com base no parâmetro. Em seguida, verifica cada parâmetro, se os dados de alta probabilidade selecionados contêm os dados observados. Se os dados de alta probabilidade contiverem os dados observados, o parâmetro correspondente será adicionado ao intervalo de confiança. Assim, o intervalo de confiança é a coleção de parâmetros para os quais não podemos descartar a possibilidade de o parâmetro ter gerado os dados. Isso fornece uma regra que, se aplicada repetidamente a problemas semelhantes, o intervalo de confiança de 95% conterá o valor verdadeiro do parâmetro em 95% dos casos.

Conjunto credível de 95% e conjunto de confiança de 95%, por exemplo, de uma distribuição binomial negativa Conjunto de 95% credível e conjunto de 95% de confiança para distribuição binomial negativa


A descrição dos intervalos de confiança não está correta. O "95%" vem da probabilidade de que uma amostra da população produza um intervalo que contenha o valor verdadeiro do parâmetro.
Jlimahaverford # 29/15

@jlimahaverford - A descrição está correta, assim como a sua. Para criar o link para o que você descreve, eu adicionei "Isso fornece uma regra que, se aplicada repetidamente a problemas semelhantes, o intervalo credível de 95% conterá o valor verdadeiro do parâmetro em 95% dos casos".
user36160

11
Eu não estava falando sobre sua descrição de intervalos confiáveis, mas sobre intervalos de confiança. Agora estou percebendo que, no meio do seu parágrafo, em intervalos de confiança, você começa a falar sobre credibilidade novamente, e acho que isso é um erro. A idéia importante é a seguinte: "Se esse fosse o verdadeiro valor do parâmetro, qual é a probabilidade de eu extrair uma amostra tão extrema ou mais. Se a resposta for maior que 5%, está no intervalo de confiança".
Jlimahaverford # 30/15

@jlimahaverford - concordo e corrigido - Obrigado.
user36160

hmm, eu não estou vendo isso corrigido.
Jlimahaverford # 30/15

1

Este é mais um comentário, mas muito longo. No artigo a seguir: http://www.stat.uchicago.edu/~lekheng/courses/191f09/mumford-AMS.pdf Mumford tem o seguinte comentário interessante:

Enquanto todos esses usos realmente empolgantes estavam sendo feitos de estatística, a maioria dos estatísticos, liderados por Sir RA Fisher, estava amarrando as mãos nas costas, insistindo que as estatísticas não podiam ser usadas em situações que não fossem totalmente reproduzíveis e depois apenas usando os dados empíricos. Esta é a chamada escola 'freqüentista' que brigou com a escola bayesiana que acreditava que os anteriores poderiam ser usados ​​e o uso de inferência estatística amplamente estendido. Essa abordagem nega que a inferência estatística possa ter algo a ver com o pensamento real, porque as situações da vida real estão sempre enterradas em variáveis ​​contextuais e não podem ser repetidas. Felizmente, a escola bayesiana não morreu totalmente, sendo continuada por DeFinetti, ET Jaynes e outras.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.