Relação entre intervalo de confiança e teste da hipótese estatística para o teste t

31

É sabido que os intervalos de confiança e a hipótese estatística de teste estão fortemente relacionados. Minhas perguntas estão focadas na comparação de médias para dois grupos com base em uma variável numérica. Vamos supor que essa hipótese seja testada usando o teste t. Por outro lado, pode-se calcular intervalos de confiança para as médias de ambos os grupos. Existe alguma relação entre a sobreposição de intervalos de confiança e a rejeição da hipótese nula de que as médias são iguais (a favor da alternativa que significa as diferenças - teste bilateral)? Por exemplo, um teste pode rejeitar a hipótese nula se os intervalos de confiança não se sobrepuserem.

hypothesis-testing confidence-interval

— Lan
fonte

31

Sim, existem algumas relações simples entre comparações de intervalos de confiança e testes de hipóteses em uma ampla variedade de configurações práticas. No entanto, além de verificar se os procedimentos de IC e o teste t são adequados para nossos dados, devemos verificar se o tamanho da amostra não é muito diferente e se os dois conjuntos têm desvios padrão semelhantes. Também não devemos tentar derivar valores p altamente precisos da comparação de dois intervalos de confiança, mas devemos nos alegrar em desenvolver aproximações eficazes.

Ao tentar reconciliar as duas respostas já dadas (por @John e @Brett), ajuda a ser matematicamente explícito. Uma fórmula para um intervalo de confiança bidirecional simétrico apropriado para a definição desta questão é

CI = m \pm \frac{t_{α} (n) s}{\sqrt{n}}

$\text{CI} = m \pm \frac{t_\alpha(n) s}{\sqrt{n}}$

onde $m$ é a média amostral de $n$ observações independentes, é o desvio padrão da amostra, é o tamanho de teste desejado (taxa máxima de falsos positivos) e é o percentil superior do Distribuição t de Student com graus de liberdade. (Esse ligeiro desvio da notação convencional simplifica a exposição, evitando qualquer necessidade de se preocupar com a distinção vs , que será inconseqüente de qualquer maneira.) $s$ $2\alpha$ $t_\alpha(n)$ $1-\alpha$ $n-1$ $n$ $n-1$

Usando os subscritos e para distinguir dois conjuntos independentes de dados para comparação, com correspondendo à maior das duas médias, uma não sobreposição de intervalos de confiança é expressa pela desigualdade (limite inferior de confiança 1) (limite superior de confiança 2); viz. , $1$ $2$ $1$ $\gt$

m_{1} - \frac{t_{α} (n_{1}) s_{1}}{\sqrt{n_{1}}} > m_{2} + \frac{t_{α} (n_{2}) s_{2}}{\sqrt{n_{2}}} .

$m_1 - \frac{t_\alpha(n_1) s_1}{\sqrt{n_1}} \gt m_2 + \frac{t_\alpha(n_2) s_2}{\sqrt{n_2}}.$

Isso pode ser feito para parecer com a estatística t do teste de hipótese correspondente (para comparar as duas médias) com manipulações algébricas simples, produzindo

\frac{m_{1} - m_{2}}{\sqrt{s_{1}^{2} / n_{1} + s_{2}^{2} / n_{2}}} > \frac{s_{1} \sqrt{n_{2}} t_{α} (n_{1}) + s_{2} \sqrt{n_{1}} t_{α} (n_{2})}{\sqrt{n_{1} s_{2}^{2} + n_{2} s_{1}^{2}}} .

$\frac{m_1-m_2}{\sqrt{s_1^2/n_1 + s_2^2/n_2}} \gt \frac{s_1\sqrt{n_2}t_\alpha(n_1) + s_2\sqrt{n_1}t_\alpha(n_2)}{\sqrt{n_1 s_2^2 + n_2 s_1^2}}.$

O lado esquerdo é a estatística usada no teste de hipótese; geralmente é comparado a um percentil de uma distribuição t de Student com graus de liberdade: ou seja, com . O lado direito é uma média ponderada parcial dos percentis de distribuição t originais. $n_1+n_2$ $t_\alpha(n_1+n_2)$

Até agora, a análise justifica a resposta de @Brett: parece não haver um relacionamento simples disponível. No entanto, vamos investigar mais. Estou inspirado a fazê-lo porque, intuitivamente, uma não sobreposição de intervalos de confiança deve dizer algo!

Primeiro, observe que essa forma do teste de hipótese é válida somente quando esperamos que $s_1$ e $s_2$ sejam pelo menos aproximadamente iguais. (Caso contrário, enfrentar o notório problema Behrens-Fisher e suas complexidades.) Após a verificação da igualdade aproximada dos $s_i$ , poderíamos criar uma simplificação aproximada na forma

\frac{m_{1} - m_{2}}{s \sqrt{1 / n_{1} + 1 / n_{2}}} > \frac{\sqrt{n_{2}} t_{α} (n_{1}) + \sqrt{n_{1}} t_{α} (n_{2})}{\sqrt{n_{1} + n_{2}}} .

$\frac{m_1-m_2}{s\sqrt{1/n_1 + 1/n_2}} \gt \frac{\sqrt{n_2}t_\alpha(n_1) + \sqrt{n_1}t_\alpha(n_2)}{\sqrt{n_1 + n_2}}.$

Aqui, . Realisticamente, não devemos esperar que essa comparação informal dos limites de confiança tenha o mesmo tamanho que . Nossa pergunta então é se existe um tal que o lado direito seja (pelo menos aproximadamente) igual à estatística t correta. Ou seja, para que $s \approx s_1 \approx s_2$ $\alpha$ $\alpha'$ $\alpha'$ é o caso que

t_{α^{'}} (n_{1} + n_{2}) = \frac{\sqrt{n_{2}} t_{α} (n_{1}) + \sqrt{n_{1}} t_{α} (n_{2})}{\sqrt{n_{1} + n_{2}}} ?

$t_{\alpha'}(n_1+n_2) = \frac{\sqrt{n_2}t_\alpha(n_1) + \sqrt{n_1}t_\alpha(n_2)}{\sqrt{n_1 + n_2}}\text{?}$

Acontece que, para tamanhos iguais de amostra, e são conectados (com uma precisão bastante alta) por uma lei de energia. $\alpha$ $\alpha'$ Por exemplo, aqui está um gráfico de log-log dos dois para os casos (linha azul mais baixa), (linha vermelha do meio), (linha dourada mais alta). A linha tracejada verde do meio é uma aproximação descrita abaixo. A retidão dessas curvas esconde uma lei do poder. Varia com , mas não muito. $n_1=n_2=2$ $n_1=n_2=5$ $n_1=n_2=\infty$ $n=n_1=n_2$

Gráfico 1

A resposta depende do conjunto , mas é natural imaginar o quanto isso realmente varia com as alterações nos tamanhos das amostras. Em particular, poderíamos esperar que, para tamanhos de amostra moderados a grandes (talvez ou aproximadamente), o tamanho da amostra faça pouca diferença. Nesse caso, poderíamos desenvolver uma maneira quantitativa de relacionar com $\{n_1, n_2\}$ $n_1 \ge 10, n_2 \ge 10$ $\alpha'$ $\alpha$ .

Essa abordagem funciona, desde que os tamanhos das amostras não sejam muito diferentes entre si. No espírito da simplicidade, relatarei uma fórmula abrangente para calcular o tamanho do teste correspondente ao tamanho do intervalo de confiança $\alpha'$ $\alpha$ . Isto é

α^{'} \approx e α^{1.91};

$\alpha' \approx e \alpha^{1.91};$

isso é,

α^{'} \approx \exp (1 + 1.91 \log (α)) .

$\alpha' \approx \exp(1 + 1.91\log(\alpha)).$

Essa fórmula funciona razoavelmente bem nessas situações comuns:

Os dois tamanhos de amostra estão próximos um do outro, e não é muito extremo ( ou mais). $n_1 \approx n_2$ $\alpha$ $\alpha \gt .001$
Um tamanho de amostra está cerca de três vezes o outro e o menor não é muito pequeno (aproximadamente, maior que ) e, novamente, não é muito extremo. $10$ $\alpha$
Um tamanho de amostra está três vezes mais que o ou mais. $\alpha \gt .02$

O erro relativo (valor correto dividido pela aproximação) na primeira situação é plotado aqui, com a linha inferior (azul) mostrando o caso , a linha do meio (vermelha) o caso e a linha superior (dourada) do caso $n_1=n_2=2$ $n_1=n_2=5$ $n_1=n_2=\infty$ . Interpolando entre os dois últimos, vemos que a aproximação é excelente para uma ampla gama de valores práticos de $\alpha$ quando o tamanho da amostra é moderado (em torno de 5-50) e, caso contrário, é razoavelmente bom.

Gráfico 2

Isso é mais do que suficiente para observar vários intervalos de confiança.

Para resumir, a falha de dois $2\alpha$ $2e \alpha^{1.91}$

$2\alpha$

$2\alpha$ $2\alpha'$

0,05 0,005

0,01 0,0002

0,005 0,00006

$2\alpha=.05$ $p \lt .005$ $n$ $.0037$ $n=2$ $.0056$ $n=\infty$

Esse resultado justifica (e espero que melhore) a resposta de @John. Assim, embora as respostas anteriores pareçam estar em conflito, ambas estão (à sua maneira) corretas.

— whuber
fonte

7

Não, pelo menos não é simples.

Existe, no entanto, uma correspondência exata entre o teste t da diferença entre duas médias e o intervalo de confiança para a diferença entre as duas médias.

Se o intervalo de confiança para a diferença entre duas médias contiver zero, um teste t para essa diferença falharia em rejeitar nulo no mesmo nível de confiança. Da mesma forma, se o intervalo de confiança não contiver 0, o teste t rejeitaria o nulo.

Isso não é o mesmo que sobreposição entre intervalos de confiança para cada uma das duas médias.

— Brett
fonte

A resposta de @John, que embora atualmente não esteja totalmente correta nos detalhes, indica corretamente que sim, você pode relacionar sobreposições de ICs para testar valores de p. O relacionamento não é mais complexo que o próprio teste t. Isso parece contradizer sua conclusão principal, como declarado na primeira linha. Como você resolveria essa diferença?

— whuber

Eu não acho que eles sejam contraditórios. Eu posso adicionar algumas ressalvas. Mas, no sentido geral, sem suposições e conhecimentos adicionais sobre parâmetros fora da apresentação do intervalo (a variação, o tamanho da amostra), a resposta permanece como está. Não, pelo menos não é simples.

— Brett

5

Sob premissas típicas de variância igual, sim, existe um relacionamento. Se as barras se sobrepuserem menos do que o comprimento de uma barra * sqrt (2), um teste t descobrirá que elas são significativamente diferentes em alfa = 0,05. Se as extremidades das barras mal tocarem, será encontrada uma diferença em 0,01. Se os intervalos de confiança para os grupos não forem iguais, normalmente leva a média e aplica a mesma regra.

Alternativamente, se a largura de um intervalo de confiança em torno de uma das médias for w, a diferença menos significativa entre dois valores será w * sqrt (2). Isso é simples quando você pensa no denominador nos grupos independentes teste t, sqrt (2 * MSE / n) e no fator para o IC que, sqrt (MSE / n).

(ICs de 95% assumidos)

Há um artigo simples sobre como fazer inferências a partir de intervalos de confiança em torno de meios independentes aqui . Ele responderá a essa pergunta e a muitas outras perguntas relacionadas que você possa ter.

Cumming, G., & Finch, S. (2005, março). Inferência a olho nu: intervalos de confiança e como ler imagens de dados. American Psychologist , 60 (2), 170-180.

— John
fonte

2

Eu acredito que você também precisa assumir que os dois grupos têm os mesmos tamanhos.

— whuber

grosseiramente, sim ... #

— John