A resposta aproximada para a pergunta é que um intervalo de confiança de 95% permite que você tenha 95% de confiança de que o verdadeiro valor do parâmetro está dentro do intervalo. No entanto, essa resposta aproximada é incompleta e imprecisa.
A incompletude está no fato de que não está claro que "95% confiante" significa algo concreto, ou, se o fizer, então esse significado concreto não seria universalmente aceito, mesmo por uma pequena amostra de estatísticos. O significado da confiança depende de qual método foi usado para obter o intervalo e de qual modelo de inferência está sendo usado (o que, espero, ficará mais claro abaixo).
A imprecisão reside no fato de que muitos intervalos de confiança não são projetados para informar qualquer coisa sobre a localização do valor verdadeiro do parâmetro para o caso experimental específico que produziu o intervalo de confiança! Isso será surpreendente para muitos, mas decorre diretamente da filosofia de Neyman-Pearson, que é claramente declarada nesta citação de seu artigo de 1933 "Sobre o problema dos testes mais eficientes das hipóteses estatísticas":
Estamos inclinados a pensar que, no que diz respeito a uma hipótese específica, nenhum teste baseado na teoria da probabilidade pode, por si só, fornecer qualquer evidência valiosa da verdade ou falsidade dessa hipótese.
Mas podemos considerar o objetivo dos testes de outro ponto de vista. Sem esperar saber se cada hipótese separada é verdadeira ou falsa, podemos procurar regras para governar nosso comportamento com relação a elas, seguindo as quais garantimos que, a longo prazo da experiência, não estaremos errados com muita frequência.
Intervalos baseados na 'inversão' dos testes de hipóteses NP herdarão, portanto, desse teste a natureza de ter conhecido propriedades de erro de longo prazo sem permitir inferência sobre as propriedades do experimento que as produziu! Meu entendimento é que isso protege contra inferência indutiva, que Neyman aparentemente considerou uma abominação.
Neyman reivindica explicitamente o termo 'intervalo de confiança' e a origem da teoria dos intervalos de confiança em seu artigo de 1941 da Biometrika “Argumento fiducial e a teoria dos intervalos de confiança”. De certo modo, qualquer coisa que seja adequadamente um intervalo de confiança é reproduzida por suas regras e, portanto, o significado de um intervalo individual só pode ser expresso em termos da taxa de longo prazo em que os intervalos calculados por esse método contêm (encobrem) o verdadeiro valor relevante. valor do parâmetro.
Agora precisamos forçar a discussão. Uma vertente segue a noção de 'cobertura' e a outra segue intervalos não neymanianos que são como intervalos de confiança. Adiarei o primeiro para que eu possa concluir este post antes que ele se torne muito longo.
Existem muitas abordagens diferentes que produzem intervalos que poderiam ser chamados de intervalos de confiança não Neymanianos. O primeiro deles são os intervalos fiduciais de Fisher. (A palavra 'fiducial' pode assustar muitos e provocar sorrisos irônicos de outros, mas deixarei isso de lado ...) Para alguns tipos de dados (por exemplo, normal, com variação desconhecida da população), os intervalos calculados pelo método de Fisher são numericamente idênticos aos intervalos que seriam calculados pelo método de Neyman. No entanto, eles convidam interpretações diametralmente opostas. Os intervalos neymanianos refletem apenas as propriedades de cobertura de longo prazo do método, enquanto os intervalos de Fisher visam apoiar a inferência indutiva a respeito dos verdadeiros valores dos parâmetros para o experimento específico que foi realizado.
O fato de que um conjunto de limites de intervalo pode vir de métodos baseados em dois paradigmas filosoficamente distintos leva a uma situação realmente confusa - os resultados podem ser interpretados de duas maneiras contraditórias. A partir do argumento fiducial, há uma probabilidade de 95% de que um intervalo fiducial específico de 95% contenha o valor verdadeiro do parâmetro. Pelo método de Neyman, sabemos apenas que 95% dos intervalos calculados dessa maneira conterão o valor verdadeiro do parâmetro e devemos dizer coisas confusas sobre a probabilidade do intervalo que contém o valor verdadeiro do parâmetro ser desconhecido, mas 1 ou 0.
Em grande medida, a abordagem de Neyman dominou a de Fisher. Isso é muito infeliz, na minha opinião, porque não leva a uma interpretação natural dos intervalos. (Releia a citação acima de Neyman e Pearson e verifique se ela corresponde à sua interpretação natural dos resultados experimentais. Provavelmente não.)
Se um intervalo pode ser corretamente interpretado em termos de taxas de erro globais, mas também corretamente em termos inferenciais locais, não vejo uma boa razão para barrar os usuários de intervalo da interpretação mais natural oferecida por este último. Assim, minha sugestão é que a interpretação adequada de um intervalo de confiança seja AMBAS as seguintes:
Neymanian: Esse intervalo de 95% foi construído por um método que gera intervalos que cobrem o valor verdadeiro do parâmetro em 95% das ocasiões a longo prazo (... da nossa experiência estatística).
Pescador: Este intervalo de 95% tem uma probabilidade de 95% de cobrir o valor real do parâmetro.
(Os métodos bayesiano e de probabilidade também produzirão intervalos com propriedades freqüentistas desejáveis. Tais intervalos convidam interpretações ligeiramente diferentes que provavelmente se sentirão mais naturais do que as Neymanianas.)