Por que não usamos a distribuição t para construir um intervalo de confiança para uma proporção?

18

Para calcular o intervalo de confiança (IC) para média com desvio padrão populacional desconhecido (dp), estimamos o desvio padrão populacional empregando a distribuição t. Notavelmente, que . Porém, como não temos uma estimativa pontual do desvio padrão da população, estimamos através da aproximação que $CI=\bar{X} \pm Z_{95\% }\sigma_{\bar X}$ $\sigma_{\bar X} = \frac{\sigma}{\sqrt n}$ $CI=\bar{X} \pm t_{95\% }(se)$ $se = \frac{s}{\sqrt n}$

De forma contrastante, para a proporção da população, para calcular o IC, aproximamos como que fornecida e $CI = \hat{p} \pm Z_{95\% }(se)$ $se = \sqrt\frac{\hat{p}(1-\hat{p})}{n}$ $n \hat{p} \ge 15$ $n(1-\hat{p}) \ge 15$

Minha pergunta é: por que somos complacentes com a distribuição padrão para proporção populacional?

— Abhijit
fonte

1

Minha intuição diz que isso ocorre porque, para obter o erro padrão da média, você tem um segundo desconhecido, , que é estimado a partir da amostra para concluir o cálculo. O erro padrão para a proporção não envolve incógnitas adicionais.

σ

$\sigma$

— Restabelecer Monica - G. Simpson

@GavinSimpson Parece convincente. De fato, a razão pela qual introduzimos a distribuição t é compensar o erro introduzido para compensar a aproximação do desvio padrão.

— Abhijit

3

Acho isso parcialmente convincente porque a distribuição decorre da independência da variação da amostra e da média da amostra em amostras de uma distribuição Normal, enquanto que para amostras de uma distribuição Binomial as duas quantidades não são independentes.

t

$t$

— whuber

@ Abhijit Alguns livros didáticos usam uma distribuição t como uma aproximação para esta estatística (sob certas condições) - eles parecem usar n-1 como o df. Enquanto ainda estou para ver um bom argumento formal para isso, a aproximação parece frequentemente funcionar bastante bem; para os casos que verifiquei, normalmente é um pouco melhor que a aproximação normal (mas, para isso, existe um argumento assintótico sólido que falta à aproximação t). [Edit: meus próprios cheques eram mais ou menos parecidos com aqueles shows de putaria; a diferença entre z e ot ser muito menor do que a discrepância em relação à estatística]

— Glen_b -Reinstala Monica

1

Pode ser que exista um argumento possível (talvez baseado nos termos iniciais de uma expansão em série, por exemplo) que poderia estabelecer que quase sempre se espera que t seja melhor, ou talvez que seja melhor sob algumas condições específicas, mas eu não vi nenhum argumento desse tipo. Pessoalmente, geralmente atendo ao z, mas não me preocupo se alguém usar um t.

— Glen_b -Reinstate Monica

20

As distribuições padrão Normal e Student t são aproximações bastante pobres da distribuição de

Z = \frac{\hat{p} - p}{\sqrt{\hat{p} (1 - \hat{p}) / n}}

$Z = \frac{\hat p - p}{\sqrt{\hat p(1-\hat p)/n}}$

para $n,$ pequeno tão ruim que o erro diminui as diferenças entre essas duas distribuições.

Aqui é uma comparação de todas as três distribuições (omitindo os casos onde ou são zero, em que a razão é indefinido) para $\hat p$ $1-\hat p$ $n=10, p=1/2:$

A distribuição "empírica" é o de $Z,$ que devem ser discretas porque a estimativas estão limitadas ao conjunto finito $\hat p$ $\{0, 1/n, 2/n, \ldots, n/n\}.$

A distribuição $t$ parece fazer um trabalho melhor de aproximação.

Para $n=30$ e $p=1/2,$ você pode ver a diferença entre as distribuições padrão Normal e t de Student é completamente insignificante:

Como a distribuição Student t é mais complicada do que o Normal normal (é realmente uma família inteira de distribuições indexadas pelos "graus de liberdade", exigindo anteriormente capítulos inteiros de tabelas em vez de uma única página), o Normal normal é usado para quase todas as aproximações.

— whuber
fonte

2

Resposta de qualidade. +1

— Demetri Pananos 06/06

10

A justificativa para usar a distribuição t no intervalo de confiança para uma média depende da suposição de que os dados subjacentes seguem uma distribuição normal, o que leva a uma distribuição qui-quadrado ao estimar o desvio padrão e, portanto, $\frac{\bar{x}-\mu}{s/ \sqrt{n}} \sim t_{n-1}$ . Esse é um resultado exato sob a suposição de que os dados são exatamente normais, o que leva a intervalos de confiança com exatamente 95% de cobertura ao usar $t$ e menos de 95% de cobertura ao usar $z$ .

No caso de intervalos de Wald para proporções, você só tem normalidade assintótica para $\frac{\hat{p}- p}{\sqrt{ \hat{p}(1-\hat{p} )/n}}$ quando n é suficientemente grande, o que depende de p. A probabilidade real de cobertura do procedimento, uma vez que as contagens subjacentes de sucessos são discretas, está algumas vezes abaixo e algumas vezes acima da probabilidade nominal de cobertura de 95%, dependendo do valor desconhecido $p$ . Portanto, não há justificativa teórica para o uso de $t$ , e não há garantia de que, do ponto de vista prático, o uso de $t$ apenas para aumentar os intervalos ajude a alcançar uma cobertura nominal de 95%.

A probabilidade de cobertura pode ser calculada exatamente, embora seja bastante simples simulá-la. O exemplo a seguir mostra a probabilidade de cobertura simulada quando n = 35. Isso demonstra que a probabilidade de cobertura para o uso do intervalo z é geralmente um pouco menor que 0,95, enquanto a probabilidade de cobertura para o intervalo t geralmente pode ser menor, próximo a 0,95, em média, dependendo de suas crenças anteriores sobre os valores plausíveis de p .

— jsk
fonte

3

+1 Estas são excelentes ilustrações das alegações que fiz (com base apenas em gráficos de inspeção de CDFs, em vez de demonstrações rigorosas) sobre a precisão relativa dos CIs Student e Normal.

— whuber

6

Tanto o AdamO quanto o jsk dão uma ótima resposta.

Eu tentaria repetir seus pontos com inglês simples:

Quando a distribuição subjacente é normal, você sabe que existem dois parâmetros: média e variância . A distribuição T oferece uma maneira de deduzir a média sem saber o valor exato das variações. Em vez de utilizar as variações reais, apenas de exemplo meios e amostras variâncias são necessários. Por ser uma distribuição exata, você sabe exatamente o que está recebendo. Em outras palavras, a probabilidade de cobertura está correta. O uso de t simplesmente reflete o desejo de contornar a variação desconhecida da população.

Quando fazemos inferência em proporção, no entanto, a distribuição subjacente é binomial. Para obter a distribuição exata, é necessário observar os intervalos de confiança de Clopper-Pearson. A fórmula que você fornece é a fórmula para o intervalo de confiança de Wald. Ele usa a distribuição normal para aproximar a distribuição binomial, porque a distribuição normal é a distribuição limitadora da distribuição binomial. Nesse caso, como você está apenas aproximando, o nível extra de precisão do uso de estatísticas t se torna desnecessário, tudo se resume ao desempenho empírico. Como sugerido na resposta do BruceET, o Agresti-Coull é hoje uma fórmula simples e padrão para essa aproximação.

Meu professor Dr. Longnecker, do Texas A&M, fez uma simulação simples para ilustrar como as diferentes aproximações funcionam em comparação com o IC baseado em binômio.

Mais informações podem ser encontradas no artigo Estimativa de intervalos para uma proporção binomial em Statistical Science , vol. 16, pp.101-133, por L. Brown, T. Cai e A. DasGupta. Basicamente, o IC AC é recomendado para n> = 40.

— Qilin Wang
fonte

3

$X_1, X_2, \dots X_n$ $\mu$ $\sigma$ $H_0:\mu = \mu_0$ $H_a: \mu \ne \mu_0$ $Z = \frac{\bar X - \mu_0}{\sigma/\sqrt{n}}.$ $H_0$ $Z \sim \mathsf{Norm}(0,1),$ $H_0$ $|Z| \ge 1.96.$

$\mu$ $\mu_0$ $\mu.$ $\bar X \pm 1.96\sigma/\sqrt{n},$ $\pm 1.96$

$\sigma$ $S,$ $T=\frac{\bar X - \mu_0}{S/\sqrt{n}}.$ $T$ $n$ $S$ $\sigma.$

$T \sim \mathsf{T}(\nu = n-1),$ $n-1$ $\sigma$ $\bar X \pm t^*S/\sqrt{n},$ $\pm t^*$ $\mathsf{T}(n-1).$

$n > 30,$ $t^* \approx 2 \approx 1.96.$ $S$ $\sigma$ $\sigma$ $n > 30,$

$X$ $n$ $\hat p =X/n$ $p.$ $H_0:p = p_0$ $H_a: p \ne p>0,$ $Z = \frac{\hat p - p_0}{\sqrt{p_0(1-p_0)/n}}.$ $H_0,$ $Z \stackrel{aprx}{\sim} \mathsf{Norm}(0,1).$ $H_0$ $|Z| \ge 1.96.$

$p,$ $\hat p \pm 1.96\sqrt{\frac{p(1-p)}{n}}.$ $p$ $n,$ $\hat p$ $p.$ $\hat p \pm 1.96\sqrt{\frac{\hat p(1-\hat p)}{n}}.$ $n$

$\check n = n+4$ $\check p = (X+2)/\check n$ $\check p \pm 1.96\sqrt{\frac{\check p(1-\check p)}{\check n}}.$

$\mu$ $p$

$S$ $\sigma$ $\sigma$

$\hat p$ $p$ $\hat p$ $p.$ $p$ $n.$

— BruceET
fonte

2

$\sigma$

Além disso, deve-se notar que esta pergunta reflete a resposta solicitada por essa pergunta .

— AdamO
fonte

2

O pseudônimo de Gosset publicado em "Student" não "Student-T". Ele também não apresentou a distribuição t padrão em si, nem a estatística com a qual ele lidou realmente a estatística t (ele fez coisas equivalentes, essencialmente lidando com um t em escala, mas quase todo o formalismo que temos agora vem do trabalho de Fisher). Fisher escreveu a estatística da maneira como a escrevemos. Fisher chamou isso de t. Fisher derivou formalmente a distribuição da estatística (mostrando que a combinação de álgebra de Gosset, a intuição e o argumento de simulação que a acompanhava sobre sua versão da estatística estava correta)

— Glen_b -Reinstate Monica

1

Veja o artigo de Gosset de 1908 aqui: archive.org/details/biometrika619081909pear/page/n13 - também há um PDF legível e agradável do artigo refeito no LaTeX aqui . Observe que isso não tem direitos autorais, uma vez que ocorre mais de alguns anos antes do Steamboat Willie .

— Glen_b -Reinstate Monica

@Glen_b Thanks! Eu apaguei as histórias aparentemente erradas da história.

— AdamO 6/06