Isso é algo que pode ser difícil de entender:
- se, em média, 95% de todos os intervalos de confiança contiverem o parâmetro
- e eu tenho um intervalo de confiança específico
- por que a probabilidade de que esse intervalo contenha o parâmetro também não seja 95%?
Um intervalo de confiança refere-se ao procedimento de amostragem. Se você coletar muitas amostras e calcular um intervalo de confiança de 95% para cada amostra, descobrirá que 95% desses intervalos contêm a média da população.
Isso é útil para, por exemplo, departamentos de qualidade industrial. Esses caras tiram muitas amostras e agora têm a confiança de que a maioria de suas estimativas estará bem próxima da realidade. Eles sabem que 95% de suas estimativas são muito boas, mas não podem dizer isso sobre cada estimativa específica.
Compare isso com os dados: se você jogasse 600 (justos) dados, quantos 6 você jogaria? Seu melhor palpite é * 600 = 100.16
No entanto, se você jogou UM dado, é inútil dizer: "Existe uma probabilidade de 1/6 ou 16,6% de que eu já joguei um 6". Por quê? Porque o dado mostra um 6 ou alguma outra figura. Você jogou 6, ou não. Portanto, a probabilidade é 1 ou 0. A probabilidade não pode ser .16
Quando perguntado antes do lance qual seria a probabilidade de jogar um 6 com um dado, um bayesiano responderia " " (com base em informações anteriores: todo mundo sabe que um dado tem 6 lados e uma chance igual de cair em um deles), mas um Frequentista diria "Não faço ideia" porque o freqüentismo é baseado exclusivamente nos dados, não em antecedentes ou em informações externas.16
Da mesma forma, se você tiver apenas 1 amostra (portanto, 1 intervalo de confiança), não poderá dizer qual é a probabilidade de a média da população estar nesse intervalo. A média (ou qualquer parâmetro) está nela ou não. A probabilidade é 1 ou 0.
Além disso, não é correto que os valores dentro do intervalo de confiança sejam mais prováveis do que aqueles fora dele. Eu fiz uma pequena ilustração; tudo é medido em ° C. Lembre-se de que a água congela a 0 ° C e ferve a 100 ° C.
O caso: em um lago frio, gostaríamos de estimar a temperatura da água que flui abaixo do gelo. Medimos a temperatura em 100 locais. Aqui estão os meus dados:
- 0,1 ° C (medido em 49 locais);
- 0,2 ° C (também em 49 localidades);
- 0 ° C (. Em uma localização Este foi água apenas sobre a congelar);
- 95 ° C (em um local, há uma fábrica que despeja ilegalmente água muito quente no lago).
- Temperatura média: 1,1 ° C;
- Desvio padrão: 1,5 ° C;
- 95% -CI: (-0,8 ° C ...... + 3,0 ° C).
As temperaturas nesse intervalo de confiança definitivamente NÃO são mais prováveis do que as que estão fora dele. A temperatura média da água corrente neste lago NÃO PODE ser mais fria que 0 ° C, caso contrário não seria água, mas gelo. Uma parte desse intervalo de confiança (ou seja, a seção de -0,8 a 0) realmente tem uma probabilidade de 0% de conter o parâmetro true.
Concluindo: os intervalos de confiança são um conceito freqüentista e, portanto, são baseados na ideia de amostras repetidas. Se muitos pesquisadores coletassem amostras desse lago e todos os pesquisadores calculassem intervalos de confiança, 95% desses intervalos conterão o parâmetro true. Mas, para um único intervalo de confiança, é impossível dizer qual a probabilidade de conter o parâmetro true.