Por que um intervalo de confiança de 95% (IC) não implica uma chance de 95% de conter a média?


228

Parece que, através de várias questões relacionadas aqui, há consenso de que a parte "95%" do que chamamos de "intervalo de confiança de 95%" refere-se ao fato de que se replicarmos exatamente nossos procedimentos de amostragem e computação de IC muitas vezes , 95% dos ICs assim calculados conteriam a média da população. Parece também ser consenso que essa definição nãopermita concluir com um único IC de 95% que há uma chance de 95% de que a média esteja em algum lugar dentro do IC. No entanto, não entendo como o primeiro não implica o segundo, pois, tendo imaginado muitos ICs 95% dos quais contêm a média da população, não deveria nossa incerteza (se o nosso IC realmente calculado contém a população média ou não) nos força a usar a taxa básica dos casos imaginados (95%) como nossa estimativa da probabilidade de que nosso caso real contenha o IC?

Eu já vi postagens discutirem ao longo das linhas "o IC realmente calculado contém a média da população ou não, então sua probabilidade é 1 ou 0", mas isso parece implicar uma definição estranha de probabilidade dependente em estados desconhecidos (ou seja, um amigo joga moedas justas, oculta o resultado, e não sou permitido dizer que há 50% de chance de ser cara).

Certamente eu estou errado, mas não vejo onde minha lógica deu errado ...


4
Por "acaso", você quer dizer "probabilidade" no sentido técnico-freqüentista ou no sentido bayesiano de plausibilidade subjetiva? No sentido freqüentista, apenas eventos de experimentos aleatórios têm uma probabilidade. Analisar três números (fixos) dados (média verdadeira, limites calculados de IC) para determinar sua ordem (média verdadeira contida no IC?) Não é um experimento aleatório. É também por isso que a parte da probabilidade "do IC realmente calculado contém a média da população ou não, portanto sua probabilidade é 1 ou 0" também está errada. Um modelo de probabilidade frequentista simplesmente não se aplica nesse caso.
Caracal

11
Depende de como você trata a média teórica. Se for uma variável aleatória, você poderá dizer sobre a probabilidade de que ela caia em algum intervalo. Se é constante, você não pode. Essa é a explicação mais simples, que encerrou esta questão para mim pessoalmente.
Mvctas

2
Aliás, me deparei com essa palestra, de Thaddeus Tarpey: Todos os modelos estão certos ... a maioria é inútil . Ele discutiu a questão da probabilidade de que um intervalo de confiança de 95% contenha (p. 81 ss.)? μ
chl

3
@ Nesp: Eu não acho que exista algum problema com a declaração "É provável que seja zero ou um" em referência à probabilidade (posterior) de que um IC contenha um parâmetro (fixo). (Isto nem sequer realmente confiar em qualquer interpretação frequencista de probabilidade!). Também não depende de "estados desconhecidos". Tal afirmação se refere precisamente à situação em que um IC é entregue com base em uma amostra específica. É um exercício matemático simples para mostrar que qualquer probabilidade é trivial, ou seja, assume valores em . {0,1}
cardinal

3
@MikeLawrence, três anos depois, você está satisfeito com a definição de um intervalo de confiança de 95% como este: "se amostrássemos repetidamente da população e calculássemos um intervalo de confiança de 95% após cada amostra, 95% do nosso intervalo de confiança conteria a média " Como você em 2012, estou lutando para ver como isso não implica que um intervalo de confiança de 95% tenha uma probabilidade de 95% de conter a média. Gostaria de ver como a sua compreensão de um intervalo de confiança progrediu desde que você fez essa pergunta.
luciano 29/06

Respostas:


107

Parte da questão é que a definição freqüente de probabilidade não permite que uma probabilidade não trivial seja aplicada ao resultado de um experimento em particular, mas apenas a uma população fictícia de experimentos dos quais esse experimento em particular pode ser considerado uma amostra. A definição de um IC é confusa, pois é uma declaração sobre essa população (geralmente) fictícia de experimentos, e não sobre os dados específicos coletados na instância em questão. Portanto, parte do problema é uma das definições de probabilidade: a idéia do verdadeiro valor dentro de um intervalo específico com probabilidade de 95% é inconsistente com uma estrutura freqüentista.

Outro aspecto da questão é que o cálculo da confiança freqüentista não usa todas as informações contidas na amostra específica, relevantes para limitar o valor real da estatística. Minha pergunta "Existem exemplos em que os intervalos credíveis bayesianos são obviamente inferiores aos intervalos freqüentes de confiança"discute um artigo de Edwin Jaynes, que tem alguns bons exemplos que realmente destacam a diferença entre intervalos de confiança e intervalos confiáveis. Um que é particularmente relevante para essa discussão é o Exemplo 5, que discute a diferença entre um intervalo credível e um intervalo de confiança para estimar o parâmetro de uma distribuição exponencial truncada (para um problema no controle de qualidade industrial). No exemplo que ele dá, não há informação suficiente na amostra a ser determinado que o verdadeiro valor do parâmetro encontra-se em nenhum lugar um intervalo de confiança construída adequadamente 90%!

Isso pode parecer chocante para alguns, mas a razão para esse resultado é que intervalos de confiança e intervalos confiáveis ​​são respostas a duas perguntas diferentes, a partir de duas interpretações diferentes de probabilidade.

O intervalo de confiança é a resposta à solicitação: "Dê-me um intervalo que o valor verdadeiro do parâmetro em % das instâncias de um experimento que seja repetido várias vezes". O intervalo credível é uma resposta à solicitação: "Dê-me um intervalo que entre parênteses o valor verdadeiro com probabilidade dada a amostra específica que eu realmente observei. " Para poder responder à última solicitação, devemos primeiro adotar (a ) um novo conceito do processo de geração de dados ou (b) um conceito diferente da própria definição de probabilidade. 100pp

A principal razão pela qual um intervalo de confiança de 95% em particular não implica uma chance de 95% de conter a média é porque o intervalo de confiança é uma resposta a uma pergunta diferente, portanto, é apenas a resposta certa quando a resposta para as duas perguntas acontece. tem a mesma solução numérica.

Em resumo, intervalos credíveis e de confiança respondem a diferentes perguntas de diferentes perspectivas; ambos são úteis, mas você precisa escolher o intervalo certo para a pergunta que realmente deseja fazer. Se você deseja um intervalo que admita uma interpretação de uma probabilidade de 95% (posterior) de conter o valor verdadeiro, escolha um intervalo credível (e, com ele, a correspondente conceitualização de probabilidade), não um intervalo de confiança. O que você não deve fazer é adotar uma definição diferente de probabilidade na interpretação do que a usada na análise.

Obrigado a @cardinal por seus refinamentos!

Aqui está um exemplo concreto, do excelente livro de David MaKay "Teoria da informação, inferência e algoritmos de aprendizado" (página 464):

Seja o parâmetro de interesse e os dados , um par de pontos e desenhados independentemente da seguinte distribuição:θDx1x2

p(x|θ)={1/2x=θ,1/2x=θ+1,0otherwise

Se for , esperamos ver os conjuntos de dados , , e todos com igual probabilidade . Considere o intervalo de confiançaθ39(39,39)(39,40)(40,39)(40,40)1/4

[θmin(D),θmax(D)]=[min(x1,x2),max(x1,x2)] .

Claramente, este é um intervalo de confiança de 75% válido, porque se você amostrar novamente os dados, , muitas vezes o intervalo de confiança construído dessa maneira conteria o valor verdadeiro em 75% do tempo.D=(x1,x2)

Agora considere os dados . Nesse caso, o intervalo de confiança freqüentista de 75% seria . No entanto, supondo que o modelo do processo de geração esteja correto, poderia ser 28 ou 29 nesse caso, e não temos motivos para supor que 29 seja mais provável que 28, portanto a probabilidade posterior é . Portanto, nesse caso, o intervalo de confiança freqüentista claramente não é um intervalo credível de 75%, pois há apenas 50% de probabilidade de que ele contenha o valor real de , considerando o que podemos deduzir sobre nessa amostra específica .D=(29,29)[29,29]θp(θ=28|D)=p(θ=29|D)=1/2θθ

Sim, este é um exemplo artificial, mas se os intervalos de confiança e intervalos credíveis não fossem diferentes, eles ainda seriam idênticos nos exemplos inventados.

Observe que a principal diferença é que o intervalo de confiança é uma afirmação sobre o que aconteceria se você repetisse o experimento várias vezes; o intervalo credível é uma afirmação sobre o que pode ser inferido a partir dessa amostra específica.


8
O intervalo de confiança é a resposta para a pergunta "me dê um intervalo que coloque o valor verdadeiro da estatística com probabilidade p se o experimento for repetido um grande número de vezes". O intervalo credível é uma resposta à pergunta "me dê um intervalo que entre parênteses o valor verdadeiro com probabilidade p". Antes de tudo, a afirmação relativa a uma interpretação freqüente da probabilidade deixa algo a desejar. Talvez, a questão esteja no uso da palavra probabilidade nessa frase. Em segundo lugar, acho que o intervalo de credibilidade "definição" de ser um pouco simplista demais ...
cardeal

7
... e um pouco enganador, considerando a caracterização que você atribui a um IC. De maneira semelhante, a frase final tem o mesmo problema: se você deseja um intervalo que contenha o valor verdadeiro 95% do tempo, escolha um intervalo credível, não um intervalo de confiança. O uso coloquial de "contém o valor verdadeiro 95% do tempo" é um pouco impreciso e deixa a impressão errada. De fato, posso argumentar de forma convincente (acredito) que essa redação está muito mais próxima de ser a definição de um IC.
cardeal

11
Solicitação : Seria útil que o autor da resposta negativa expressasse sua opinião / razões nos comentários. Embora seja mais provável que essa pergunta leve a discussões prolongadas, ainda é útil fornecer feedback construtivo aos respondentes; essa é uma das maneiras mais fáceis de ajudar a melhorar o conteúdo geral do site. Felicidades.
cardeal

9
Dikran, sim, eu concordo. Isso fazia parte do que eu estava tentando desenhar um pouco mais nas edições. Um freqüentador radical (o que certamente não sou ) pode afirmar provocativamente como: "Um IC é conservador, pois projeto o intervalo de antemão, de modo que, independentemente dos dados particulares que eu observe, o parâmetro será capturado no intervalo de 95% Um intervalo credível surge ao dizer 'Opa, alguém acabou de lançar alguns dados no meu colo. Qual é a probabilidade de o intervalo que eu construir a partir desses dados conter o parâmetro true?' "Isso é um pouco injusto no último caso. .
cardeal

2
Dikran, todos nós temos origens diferentes e isso ajuda a enriquecer nossa compreensão. No que diz respeito à probabilidade e aos conceitos relacionados, talvez o pensador mais brilhante com o qual tive o prazer de interagir não tenha uma estatística formal ou um fundo de probabilidade (matemática); ele era engenheiro.
cardeal

28

Nas estatísticas freqüentes, as probabilidades são sobre eventos a longo prazo. Eles simplesmente não se aplicam a um único evento após a conclusão. E a execução de um experimento e o cálculo do IC é exatamente esse evento.

Você queria compará-lo com a probabilidade de uma moeda escondida ser cara, mas não pode. Você pode relacionar isso com algo muito próximo. Se o seu jogo possui uma regra em que você deve declarar após as "cabeças" do flip, a probabilidade de estar correta no longo prazo é de 50% e isso é análogo.

Quando você executa seu experimento e coleta seus dados, obtém algo semelhante ao giro real da moeda. O processo do experimento é como o processo da moeda lançando uma vez que geraμou não apenas como a moeda é cara ou não. Depois que você joga a moeda, quer a veja ou não, não há probabilidade de que sejam caras, sejam caras ou não. Agora, suponha que você chame chefes. É isso que é o cálculo do IC. Porque você nunca pode revelar a moeda (sua analogia a um experimento desapareceria). Ou você está certo ou errado, é isso. Seu estado atual tem alguma relação com a probabilidade de surgir na próxima jogada, ou que eu poderia ter previsto o que é? Não. O processo pelo qual a cabeça é produzida tem uma probabilidade de 0,5 de produzi-la, mas isso não significa que uma cabeça que já exista tenha uma probabilidade de existência de 0,5. Depois de calcular seu IC, não há probabilidade de ele capturarμ, funciona ou não - você já jogou a moeda.

OK, acho que já torturei o suficiente. O ponto crítico é realmente que sua analogia é equivocada. Você nunca pode revelar a moeda; você só pode chamar cara ou coroa com base em suposições sobre moedas (experimentos). Você pode querer fazer uma aposta depois, com a cabeça ou coroa sendo corretas, mas nunca poderá apostar nela. Além disso, é um componente crítico do procedimento de IC que você está informando que o valor da importação está no intervalo. Caso contrário, você não tem um IC (ou pelo menos não um na% declarada).

Provavelmente, o que torna o IC confuso é o nome. É um intervalo de valores que contém ou não . Achamos que eles contêm mas a probabilidade disso não é a mesma que o processo que o levou a desenvolvê-lo. A parte de 95% do nome do IC 95% é praticamente o processo. Você pode calcular um intervalo que acredita que posteriormente contém em algum nível de probabilidade, mas esse é um cálculo diferente e não um IC.μμμ

É melhor pensar no nome IC95% como uma designação de um tipo de medida de um intervalo de valores que você acha que contém plausivelmente e separa os 95% dessa plausibilidade. Poderíamos chamá-lo de Jennifer CI, enquanto o 99% CI é o Wendy CI. Isso pode realmente ser melhor. Depois, podemos dizer que acreditamosμμ provavelmente está na faixa de valores e ninguém ficaria preso ao dizer que há uma probabilidade de Wendy que capturamos . Se você quiser uma designação diferente, acho que provavelmente também deve se sentir livre para se livrar da parte de "confiança" do IC (mas é um intervalo).μ


Para ser justa, essa resposta parece boa, mas eu adorarei ver uma descrição formal (matemática) dela. Com formal, quero dizer convertê-lo em eventos. Vou explicar meu argumento: lembro-me de estar muito confuso com os valores de no início. Em algum lugar, li que "o que os valores de p realmente calculam são a probabilidade dos dados, uma vez que a hipótese nula, H 0 , é verdadeira". Quando relacionei isso com o teorema de Bayes, tudo fazia tanto sentido que agora eu posso explicar para todos (ou seja, que se calcula p ( D | H 0 ) ). No entanto, eu sou (ironicamente) não tão confiante ...ppH0p(D|H0)
Néstor

... (continuação) com intervalos de confiança: existe uma maneira de expressar o que você disse em termos de conhecimento? Em freq. Estatísticas. um geralmente calcula uma estimativa , com algum método (por exemplo, MLE). Existe uma maneira de escrever P ( L 1 ( μ ) < μ < G 2 ( ^ m u ) | D ) (por exemplo, com um intervalo de Bayesian centro posterior, com μ a "média verdadeira") como uma função de P ( L 1 < ˉ X - μ <μ^P(L1(μ^)<μ<L2(mu^)|D)μ (ou seja, qualé realmenteo α % dos intervalos de confiança), como quando você pode expressar p ( H 0 | D ) em função de p ( D | H 0 ) ? Intuitivamente, sempre pensei que isso pode ser feito, mas nunca o fiz. P(L1<X¯μ<L2)=ααp(H0|D)p(D|H0)
Néstor

Às vezes, poder excluir comentários tem suas desvantagens. Não pude acompanhar as mudanças rápidas, neste caso!
cardinal

11
" Se você não calcular o seu intervalo de confiança, terá algo semelhante à moeda oculta e ela tem 95% de probabilidade de conter mu, assim como a moeda tem 50% de probabilidade de ser cara. " - Acho que você conseguiu a analogia está errada aqui. "Calcular o IC" não corresponde a revelar a moeda, corresponde a chamar "Cabeças" ou "Caudas", altura em que você ainda tem 50-50 de chances de acertar. A revelação da moeda corresponde a * ver o valor da população de ; nesse ponto, você pode responder à pergunta se está no intervalo "chamado". O quebra-cabeça do OP permanece. μ
precisa saber é

11
@ vonjd, não vejo o que não faz sentido. Obviamente, é o caso de seu oponente ter um flush ou não. No primeiro, a probabilidade é (trivialmente) 1, e no último, 0. Consequentemente, você não pode dizer sensatamente que a probabilidade é 0,198. Isso faz todo o sentido. Antes de dar a mão, é razoável falar sobre a probabilidade de receber um flush. Da mesma forma, antes de comprar uma carta, é razoável falar sobre a probabilidade de conseguir o naipe que você precisa. Depois de ter o cartão, é simplesmente o que quer que seja.
gung

22

Idéias formais e explícitas sobre argumentos, inferência e lógica originaram, dentro da tradição ocidental, Aristóteles. Aristóteles escreveu sobre esses tópicos em vários trabalhos diferentes (incluindo um chamado Tópicos ;-)). No entanto, o princípio único mais básico é A lei da não-contradição , que pode ser encontrada em vários lugares, incluindo a metafísicalivro IV, capítulos 3 e 4. Uma formulação típica é: "... é impossível que qualquer coisa ao mesmo tempo seja e não seja [no mesmo sentido]" (1006 a 1). Sua importância é declarada um pouco antes: "... este é naturalmente o ponto de partida, mesmo para todos os outros axiomas" (1005 b 30). Perdoe-me por me tornar filosófico, mas essa pergunta, por sua natureza, tem conteúdo filosófico que não pode ser simplesmente deixado de lado por conveniência.

Considere este experimento mental: Alex joga uma moeda, pega-a e vira-a no antebraço com a mão cobrindo o lado voltado para cima. Bob estava parado na posição correta; ele viu brevemente a moeda na mão de Alex e, portanto, pode deduzir qual lado está voltado para cima agora. No entanto, Carlos não viu a moeda - ele não estava no lugar certo. Nesse ponto, Alex pergunta a eles qual é a probabilidade de a moeda mostrar cabeças. Carlos sugere que a probabilidade é 0,5, pois essa é a frequência de longo prazo das cabeças. Bob discorda, ele afirma com confiança que a probabilidade não passa de exatamente 0 .

Agora quem está certo? É possível, é claro, que Bob tenha visto errado e esteja incorreto (suponhamos que ele não tenha visto errado). No entanto, você não pode sustentar que ambos estão certos e mantêm a lei da não-contradição. (Suponho que, se você não acredita na lei da não-contradição, pode pensar que ambas estão certas, ou alguma outra formulação desse tipo.) Agora imagine um caso semelhante, mas sem Bob presente, a sugestão de Carlos poderia ser mais certo (eh?) sem Bob por perto, já que ninguém viu a moeda? A aplicação da lei da não-contradição não é tão clara neste caso, mas acho óbvio que as partes da situação que parecem importantes são mantidas constantes da primeira para a segunda. Houve muitas tentativas de definir probabilidade e, no futuro, ainda pode haver muito mais, mas uma definição de probabilidade em função de quem está por perto e onde está posicionado tem pouco apelo. De qualquer forma (adivinhando pelo uso da frase "intervalo de confiança "), estamos trabalhando dentro da abordagem freqüentista e, nesse sentido, se alguém sabe que o verdadeiro estado da moeda é irrelevante. Não é uma variável aleatória - é um valor realizado e mostra cabeças, ou coroa .

pp=.5p=.95p

É importante para mim notar, neste ponto, que tudo isso ocorre dentro de uma concepção freqüentista de probabilidade. A perspectiva bayesiana não viola a lei da não-contradição, simplesmente parte de diferentes suposições metafísicas sobre a natureza da realidade (mais especificamente sobre probabilidade). Outros no CV são muito mais versados ​​na perspectiva bayesiana do que eu, e talvez eles possam explicar por que as suposições por trás de sua pergunta não se aplicam à abordagem bayesiana e que, de fato, pode haver uma probabilidade de 95% da média dentro de uma credibilidade de 95%intervalo, sob certas condições, incluindo (entre outras) que o anterior usado era preciso (consulte o comentário de @DikranMarsupial abaixo). No entanto, acho que todos concordariam que, uma vez que você declara estar trabalhando com a abordagem Frequentist, não é possível que a probabilidade da verdadeira média em qualquer IC 95% seja de 95.


5
Sob a abordagem bayesiana, não é verdade que exista uma probabilidade de 95% de que o valor verdadeiro esteja em um intervalo credível de 95%. Seria mais correto dizer que, dada uma distribuição prévia específica para o valor da estatística (representando nosso estado inicial de conhecimento), depois de observar os dados, temos uma distribuição posterior representando um estado atualizado de conhecimento, o que nos dá um intervalo em que temos 95% de certeza de que o verdadeiro valor está. Isso só será preciso se o nosso prévio for preciso (e outras suposições, como a forma da probabilidade).
Dikran Marsupial

@DikranMarsupial, obrigado pela observação. Isso é um pouco de boca cheia. Editei minha resposta para torná-la mais consistente com a sua sugestão, mas não a copiei para toto . Deixe-me saber se outras edições são apropriadas.
gung

Essencialmente, a abordagem bayesiana é melhor interpretada como uma declaração do seu estado de conhecimento em relação ao parâmetro de interesse (consulte o cardeal, estou aprendendo; o), mas não garante que esse estado de conhecimento esteja correto, a menos que todas as suposições estejam corretas. . Gostei da discussão filosófica, terei de lembrar a lei da não-contradição para a próxima vez é discutir a lógica fuzzy; o)
Dikran Marsupial

12

Por que um IC de 95% não implica uma chance de 95% de conter a média?

Há muitas questões a serem esclarecidas nesta questão e na maioria das respostas dadas. Vou me limitar apenas a dois deles.

uma. O que significa uma população? Existe uma população verdadeira significa?

O conceito de média populacional depende do modelo. Como todos os modelos estão errados, mas alguns são úteis, essa média populacional é uma ficção definida apenas para fornecer interpretações úteis. A ficção começa com um modelo de probabilidade.

(X,F,P),
XFXPF
μ=xXxP(X=x),
PXxXP(X=x)

PPPPM

(X,F,M).
ΘRpp<M{Pθ: θΘ}

PθM

μθ=xXxPθ(X=x).
{μθ: θΘ}MMM

MΘ

b. Qual é a definição e a finalidade de um intervalo de confiança?

1αCαθΘ

Pθ(Cα(X)μθ)1α   and   infθΘPθ(Cα(X)μθ)=1α,
Pθ(Cα(X)=)=0Pθ(Cα(X)μθ)Cα(X)μθPθ1α

Observação: Os leitores devem observar que não é necessário fazer suposições sobre o estado da realidade, a região de confiança é definida para um modelo estatístico bem definido sem fazer referência a qualquer média "verdadeira". Mesmo que a medida de probabilidade "verdadeira" não exista ou não esteja em , a definição da região de confiança funcionará, pois as suposições são sobre modelagem estatística e não sobre os estados da realidade.M

Por um lado, antes de observar os dados, é um conjunto aleatório (ou intervalo aleatório) e a probabilidade de " conter a média " é pelo menos para todos . Essa é uma característica muito desejável para o paradigma freqüentista.Cα(X)Cα(X)μθ(1α)θΘ

Por outro lado, depois de observar os dados , é apenas um conjunto fixo e a probabilidade de " conter a média " deve estar em {0,1} para todos .xCα(x)Cα(x)μθθΘ

Ou seja, depois de observar os dados , não podemos mais empregar o raciocínio probabilístico. Até onde eu sei, não existe uma teoria para tratar conjuntos de confiança para uma amostra observada (estou trabalhando nisso e obtendo bons resultados). Por um tempo, o frequentista deve acreditar que o conjunto observado (ou intervalo) é um dos conjuntos que contém para todos .xCα(x)(1α)100%μθθΘ

PS: Convido comentários, críticas, críticas ou até objeções ao meu post. Vamos discutir isso em profundidade. Como não sou um falante nativo de inglês, meu post certamente contém erros de digitação e gramática.

Referência:

Schervish, M. (1995), Theory of Statistics, Segunda ed., Springer.


Alguém quer discutir isso?
Alexandre Patriota

4
As discussões podem ocorrer no chat, mas são inadequadas em nosso site principal. Consulte nossa central de ajuda para mais informações sobre como isso funciona. Enquanto isso, estou intrigado com a formatação do seu post: quase tudo está formatado como uma citação. Você extraiu esse material de alguma fonte publicada ou é seu, recentemente escrito para esta resposta? Se for o último, remova as citações!
whuber

2
(+1). Obrigado por uma sinopse impressionante e clara. Bem vindo ao nosso site!
whuber

11

Estou surpreso que ninguém tenha mencionado o exemplo de Berger de um intervalo de confiança de 75% essencialmente inútil descrito no segundo capítulo de "O princípio da verossimilhança". Os detalhes podem ser encontrados no texto original ( disponível gratuitamente no Projeto Euclid ): o essencial é o exemplo, que descreve, sem ambiguidade, uma situação em que você conhece com absoluta certeza o valor de um parâmetro ostensivamente desconhecido após observando dados, mas você afirmaria ter apenas 75% de confiança de que seu intervalo contém o valor verdadeiro. Trabalhar com os detalhes desse exemplo foi o que me permitiu entender toda a lógica da construção de intervalos de confiança.


8
Em um cenário frequentista, não se "afirma que você tem apenas 75% de confiança de que seu intervalo contém o valor verdadeiro" em referência a um IC, em primeiro lugar. Aqui está o cerne da questão. :)
cardeal

11
você pode fornecer uma referência direta de link / página para esse exemplo? Pesquisei o capítulo, mas não consegui identificar o exemplo correto.
Ronald

@Ronald: É o primeiro na primeira página do capítulo 2. Um link direto seria uma adição bem-vinda.
cardeal

11
Link conforme solicitado. Ah sim. Dentro deste exemplo, parece claro: se fizermos um experimento, há uma chance de 75% que o intervalo de confiança resultante irá conter a média. Depois de realizarmos o experimento e sabermos como foi realizado, essa probabilidade poderá ser diferente, dependendo da distribuição da amostra resultante.
Ronald

7

Não sei se isso deve ser feito como uma nova pergunta, mas está abordando a mesma pergunta acima, propondo um experimento mental.

Primeiramente, vou assumir que, se eu selecionar uma carta de baralho aleatoriamente em um baralho padrão, a probabilidade de eu ter selecionado um clube (sem olhar para ela) é 13/52 = 25%.

Em segundo lugar, já foi afirmado muitas vezes que um intervalo de confiança de 95% deve ser interpretado em termos de repetir um experimento várias vezes e o intervalo calculado conterá a verdadeira média em 95% das vezes - acho que isso foi demonstrado de forma razoavelmente convincente por James Waters simulação. A maioria das pessoas parece aceitar essa interpretação de um IC de 95%.

Agora, para o experimento mental. Vamos supor que tenhamos uma variável normalmente distribuída em uma grande população - talvez alturas de machos ou fêmeas adultos. Tenho um assistente disposto e incansável, encarregado de executar vários processos de amostragem de um determinado tamanho de amostra da população e calcular a média da amostra e o intervalo de confiança de 95% para cada amostra. Meu assistente é muito afiado e consegue medir todas as amostras possíveis da população. Em seguida, para cada amostra, meu assistente registra o intervalo de confiança resultante como verde (se o IC contiver a média verdadeira) ou vermelho (se o IC não contiver a média verdadeira). Infelizmente, meu assistente não vai me mostrar os resultados de seus experimentos. Preciso obter algumas informações sobre as alturas dos adultos na população, mas só tenho tempo, recursos e paciência para fazer o experimento uma vez. Eu faço uma única amostra aleatória (do mesmo tamanho de amostra usada pelo meu assistente) e calculo o intervalo de confiança (usando a mesma equação).

Não tenho como ver os resultados do meu assistente. Então, qual é a probabilidade de a amostra aleatória que selecionei produzir um IC verde (ou seja, o intervalo contém a média verdadeira)?

Na minha opinião, isso é o mesmo que a situação do baralho de cartas descrita anteriormente e pode ser interpretada com uma probabilidade de 95% de que o intervalo calculado contenha a média verdadeira (ou seja, verde). No entanto, o consenso parece ser que um intervalo de confiança de 95% NÃO pode ser interpretado, pois existe uma probabilidade de 95% de que o intervalo contenha a média verdadeira. Por que (e onde) meu raciocínio no experimento de pensamento acima se desfaz?


+1 Este é um relato notavelmente claro da progressão conceitual de uma população normal para uma situação de amostragem binária. Obrigado por compartilhar conosco e bem-vindo ao nosso site!
whuber

Poste isso como uma pergunta.
João #

Obrigado pelo comentário, John. Agora, foram postadas como uma pergunta separada ( stats.stackexchange.com/questions/301478/… ).
user1718097

4

Embora tenha havido uma extensa discussão nas inúmeras ótimas respostas, quero acrescentar uma perspectiva mais simples. (embora tenha sido aludido em outras respostas - mas não explicitamente.) Para alguns parâmetros , e para uma amostra , um intervalo de confiança de é uma declaração de probabilidade do formulárioθ(X1,X2,,Xn)100p%

P(g(X1,X2,,Xn)<θ<f(X1,X2,,Xn))=p

Se considerarmos a ser uma constante, então a afirmação acima é sobre a variáveis aleatórias e , ou mais precisamente, trata-se de o intervalo aleatório .θg(X1,X2,,Xn)f(X1,X2,,Xn)(g(X1,X2,,Xn),f(X1,X2,,Xn))

Portanto, em vez de fornecer qualquer informação sobre a probabilidade do parâmetro estar contido no intervalo, ele fornece informações sobre a probabilidade do intervalo que contém o parâmetro - como o intervalo é feito a partir de variáveis ​​aleatórias.


3

Para propósitos práticos, você não está mais errado ao apostar que seu IC de 95% incluiu a média verdadeira com probabilidades de 95: 5, do que você deve apostar no sorteio do seu amigo com probabilidades de 50:50.

Se seu amigo já jogou a moeda e você acha que há 50% de probabilidade de ele ser cara, então você está apenas usando uma definição diferente da palavra probabilidade. Como já foi dito, para os freqüentadores, você não pode atribuir uma probabilidade a um evento que ocorreu, mas pode descrever a probabilidade de um evento ocorrer no futuro usando um determinado processo.

De outro blog: o frequentista dirá: "Um evento em particular não pode ter uma probabilidade. A moeda mostra cara ou coroa, e a menos que você o mostre, eu simplesmente não posso dizer qual é o fato. Somente se você repetir o sorteio muitas, muitas vezes, se você variar as condições iniciais dos lançamentos com força suficiente, eu esperaria que a frequência relativa de cabeças em todos esses lançamentos se aproximasse de 0,5 ". http://www.researchgate.net/post/What_is_the_difference_between_frequentist_and_bayesian_probability


2
Esse blog parece um argumento de palhaço. Parece confundir uma filosofia de probabilidade com algum tipo de limitação inerente (inexistente) na capacidade de criar modelos de probabilidade. Não reconheço nenhuma forma de procedimentos estatísticos clássicos ou metodologia nessa caracterização. No entanto, acho que sua conclusão final é boa - mas a linguagem que ela usa, ao não deixar claro que a aposta diz respeito ao IC e não à média, corre o risco de criar uma forma de confusão que essa questão pretende abordar.
whuber

11
Uma maneira que vejo frequentemente usada é enfatizar que o IC é o resultado de um procedimento. O que eu gosto na sua declaração final é que ela pode ser facilmente reformulada dessa forma, como em "Você não está mais errado em apostar com 95: 5 de probabilidade de que seu intervalo de confiança de 95% tenha coberto a média verdadeira do que você para apostar na moeda do seu amigo com 50:50 de chance. "
whuber

OK, mudou.
Nigelhenry #

2

Digamos que o IC que você calculou a partir do conjunto específico de dados que você possui é um dos 5% de ICs possíveis que não contêm a média. Quão próximo está o intervalo de 95% de credibilidade que você gostaria de imaginar? (Ou seja, quão perto está de conter a média com 95% de probabilidade?) Você não tem certeza de que está próximo. De fato, seu IC pode não se sobrepor a nenhum dos IC95% de 95% que realmente contêm a média. Sem mencionar que ele não contém a média em si, o que também sugere que não é um intervalo credível de 95%.

Talvez você queira ignorar isso e supor com otimismo que seu IC é um dos 95% que contém a média. OK, o que sabemos sobre seu IC, considerando que ele está nos 95%? Que contém a média, mas talvez apenas uma saída ao extremo, excluindo tudo o resto do outro lado da média. Não é provável que contenha 95% da distribuição.

De qualquer forma, não há garantia, talvez nem mesmo uma esperança razoável de que seu IC de 95% seja um intervalo credível de 95%.


Estou curioso sobre o primeiro parágrafo. Talvez eu esteja interpretando mal, mas o argumento parece um pouco contraditório com o fato de que existem vários exemplos nos quais ICs e intervalos credíveis coincidem para todos os conjuntos possíveis de observações. O que eu perdi?
cardeal

@ cardinal: posso estar errado. Eu estava falando do caso geral, mas meu palpite seria que, no caso em que o IC e o intervalo credível sejam os mesmos, existem outras restrições, como a normalidade, que impedem que o IC fique longe demais.
Wayne

Meu foco foi atraído mais fortemente para a última frase do parágrafo; o exemplo de intervalos coincidentes tinha como objetivo destacar um ponto. Você pode considerar se realmente acredita ou não nessa frase. :)
cardinal

Você quer dizer que um IC de 95% não implica que 5% não inclua a média? Eu deveria dizer "por definição, não precisa nem conter o próprio significado"? Ou estou sentindo falta ainda mais?
Wayne

Wayne, como o fato de um intervalo específico não conter a média impede que ele seja um intervalo confiável e válido? Estou interpretando mal esta observação?
cardeal

2

(ou seja, um amigo vira uma moeda justa, oculta o resultado e não posso dizer que há 50% de chance de ser cara)

Se você está apenas adivinhando que seus amigos jogam moedas com 50% de cara / coroa, então você não está fazendo certo.

  • Você deve tentar olhar rapidamente para a moeda depois / quando ela pousar e antes que o resultado seja oculto.
  • Além disso, você deve tentar criar antecipadamente uma estimativa a priori da justiça da moeda.

Certamente, a credibilidade de seu palpite sobre o lançamento da moeda dependerá dessas condições e nem sempre será a mesma de 50% (às vezes, seu método de "trapaça" pode funcionar melhor).

Seu palpite geral pode ser, se você trapacear, x> 50% do tempo certo, mas isso não significa necessariamente que a probabilidade de cada lançamento em particular seja constantemente x% de cabeças. Portanto, seria um pouco estranho projetar sua probabilidade geral na probabilidade de um lançamento específico. É um 'tipo de probabilidade' diferente.


É um pouco sobre qual nível ou profundidade você especifica / define 'probabilidade' .

  • A confiança é independente da 'probabilidade específica do experimento / inversão' e independente das 'probabilidades a priori' .

  • A confiança é sobre o conjunto de experimentos . É construído de tal maneira que você não precisa conhecer probabilidades ou distribuições a priori na população.

  • A confiança diz respeito à "taxa de falhas" geral da estimativa, mas para casos específicos, é possível especificar variações de probabilidade com mais precisão .

    ( Essas variações de probabilidade existem pelo menos implicitamente , em teoria, e não precisamos conhecê-las para que elas existam. Mas podemos expressar explicitamente essas probabilidades usando uma abordagem bayesiana).


Exemplo 1:

p=0.99p=0.01

p0.05p10p0.95

Se você tem 1% da população doente, em média, obtém 1,98% do teste positivo (1% das pessoas saudáveis ​​de 99% são positivas e 99% das pessoas doentes de 1% são positivas). Isso faz com que seu intervalo de IC de 95% (condicional) quando você encontrar um teste positivo corrija apenas 50% das vezes.

p

Exemplo 2:

iN(μi,σi2)μi

μiN(100,15)

(o oposto é verdadeiro para pessoas com resultados próximos a 100, o QI deles provavelmente será mais provável que 95% dentro do IC de 95%, e isso deve compensar os erros que você cometeu nos extremos, de forma que você acabe tendo razão. em 95% dos casos)


2

Primeiro, vamos definir o intervalo de confiança ou, em espaços de dimensão maior que um, a região de confiança. A definição é uma versão concisa da dada por Jerzy Neyman em seu artigo de 1937 para a Royal Society.

pspA(p,α)prob(sA(p,α)|p=p,I)=ααIps=sC(s,α)={p|sA(p,α)}

α

p

[pC(s,α)]prob(s=s|p=p,I)ds=[sA(p,α)]prob(s=s|p=p,I)ds=α

[pC(s,α)]pαppp

s=s

prob(pC(s,α)|s=s,I)=C(s,α)prob(s=s|p=p,I)prob(p=p|I)dpprob(s=s|p=p,I)prob(p=p|I)dp

Essa probabilidade reduz para apenas para determinadas combinações de informações e regiões de aceitação . Por exemplo, se o anterior é uniforme e a distribuição de amostragem é simétrica em e (por exemplo, uma Gaussiana com como a média), em seguida:αIA(p,α)spp

prob(pC(s,α)|s=s,I)=C(s,α)prob(s=p|p=s,I)dpprob(s=p|p=s,I)dp=prob(sC(s,α)|p=s,I)=prob(sA(s,α)|p=s,I)

Se, além disso, as regiões de aceitação são tais que , então:sA(s,α)sA(s,α)

prob(pC(s,α)|s=s,I)=prob(sA(s,α)|p=s,I)=α

O exemplo didático de estimativa de uma média populacional com um intervalo de confiança padrão construído sobre uma estatística normal é um caso especial das suposições anteriores. Portanto, o intervalo de confiança padrão 95% faz conter o significativo com uma probabilidade de 0,95; mas essa correspondência geralmente não é válida.


-1

Há algumas respostas interessantes aqui, mas pensei em adicionar uma pequena demonstração prática usando R. Recentemente, usamos esse código em um curso de estatísticas para destacar como os intervalos de confiança funcionam. Aqui está o que o código faz:

1 - Amostra de uma distribuição conhecida (n = 1000)

2 - Calcula o IC95% para a média de cada amostra

3 - Pergunta se o IC de cada amostra inclui ou não a média verdadeira.

4 - Relata no console a fração de ICs que incluiu a média verdadeira.

Eu apenas executei o script várias vezes e, na verdade, não é incomum descobrir que menos de 94% dos ICs continham a verdadeira média. Pelo menos para mim, isso ajuda a dissipar a ideia de que um intervalo de confiança tem uma probabilidade de 95% de conter o parâmetro true.

#   In the following code, we simulate the process of
#   sampling from a distribution and calculating
#   a confidence interval for the mean of that 
#   distribution.  How often do the confidence
#   intervals actually include the mean? Let's see!
#
#   You can change the number of replicates in the
#   first line to change the number of times the 
#   loop is run (and the number of confidence intervals
#   that you simulate).
#
#   The results from each simulation are saved to a
#   data frame.  In the data frame, each row represents
#   the results from one simulation or replicate of the 
#   loop.  There are three columns in the data frame, 
#   one which lists the lower confidence limits, one with
#   the higher confidence limits, and a third column, which
#   I called "Valid" which is either TRUE or FALSE
#   depending on whether or not that simulated confidence
#   interval includes the true mean of the distribution.
#
#   To see the results of the simulation, run the whole
#   code at once, from "start" to "finish" and look in the
#   console to find the answer to the question.    

#   "start"

replicates <- 1000

conf.int.low <- rep(NA, replicates)
conf.int.high <- rep(NA, replicates)
conf.int.check <- rep(NA, replicates)

for (i in 1:replicates) {

        n <- 10
        mu <- 70
        variance <- 25
        sigma <- sqrt(variance)
        sample <- rnorm(n, mu, sigma)
        se.mean <- sigma/sqrt(n)
        sample.avg <- mean(sample)
        prob <- 0.95
        alpha <- 1-prob
        q.alpha <- qnorm(1-alpha/2)
        low.95 <- sample.avg - q.alpha*se.mean
        high.95 <- sample.avg + q.alpha*se.mean

        conf.int.low[i] <- low.95
        conf.int.high[i] <- high.95
        conf.int.check[i] <- low.95 < mu & mu < high.95
 }    

# Collect the intervals in a data frame
ci.dataframe <- data.frame(
        LowerCI=conf.int.low,
        UpperCI=conf.int.high, 
        Valid=conf.int.check
        )

# Take a peak at the top of the data frame
head(ci.dataframe)

# What fraction of the intervals included the true mean?
ci.fraction <- length(which(conf.int.check, useNames=TRUE))/replicates
ci.fraction

    #   "finish"

Espero que isto ajude!


2
Pedimos desculpas pelas críticas, mas tive que (temporariamente) rebater esta resposta. Acredito que não está entendendo o significado de um intervalo de confiança e espero sinceramente que este não tenha sido o argumento usado em sua classe. As simulações reduzem-se a um experimento de amostragem binomial (bastante elaborado).
cardeal

5
@ cardinal Bem ... ele está apenas usando a interpretação de longo prazo das estatísticas freqüentistas. Faça uma amostra da população várias vezes, calcule o IC várias vezes e você descobrirá que a média verdadeira está contida no IC 95% das vezes (para ). Pelo menos isso ficou bem claro para mim. 1α=0.95
Néstor

4
"Menos de 94%" em uma amostra de 1000 ICs certamente não é uma evidência significativa contra a ideia de que 95% dos ICs contêm a média. De fato, eu esperaria que 95% dos ICs realmente contenham a média, neste caso.
Ronald

3
@Ronald: Sim, esse foi exatamente o meu ponto nos comentários, mas você disse isso de maneira muito mais simples e concisa. Obrigado. Como afirmado em um dos comentários, veremos 940 sucessos ou menos em cerca de 8,7% do tempo e isso é verdade para qualquer IC de 95% exato que se constrói ao longo de 1000 experimentos. :)
cardeal

2
@ JamesWaters: Obrigado por reservar um tempo para responder. O código está bom, mas não vejo como "demonstra instâncias em que está incorreto". Você pode explicar essa intenção? Eu ainda suspeito que possa haver um mal-entendido fundamental aqui. Você parece entender o que é o CI e como interpretá-lo corretamente, mas o experimento de simulação não responde à pergunta que você parece estar reivindicando. Eu acho que essa resposta tem potencial, então gostaria que ela terminasse com uma boa edição para esclarecer o ponto que você está tentando entender. Felicidades. :)
cardeal
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.