Sim, existem algumas relações simples entre comparações de intervalos de confiança e testes de hipóteses em uma ampla variedade de configurações práticas. No entanto, além de verificar se os procedimentos de IC e o teste t são adequados para nossos dados, devemos verificar se o tamanho da amostra não é muito diferente e se os dois conjuntos têm desvios padrão semelhantes. Também não devemos tentar derivar valores p altamente precisos da comparação de dois intervalos de confiança, mas devemos nos alegrar em desenvolver aproximações eficazes.
Ao tentar reconciliar as duas respostas já dadas (por @John e @Brett), ajuda a ser matematicamente explícito. Uma fórmula para um intervalo de confiança bidirecional simétrico apropriado para a definição desta questão é
CI=m±tα(n)sn−−√
onde m é a média amostral den observações independentes, é o desvio padrão da amostra, é o tamanho de teste desejado (taxa máxima de falsos positivos) e é o percentil superior do Distribuição t de Student com graus de liberdade. (Esse ligeiro desvio da notação convencional simplifica a exposição, evitando qualquer necessidade de se preocupar com a distinção vs , que será inconseqüente de qualquer maneira.)s2 αtα( N )1 - αn - 1n n - 1
Usando os subscritos e para distinguir dois conjuntos independentes de dados para comparação, com correspondendo à maior das duas médias, uma não sobreposição de intervalos de confiança é expressa pela desigualdade (limite inferior de confiança 1) (limite superior de confiança 2); viz. ,121>
m1- tα( n1) s1n1--√> m2+ tα( n2) s2n2--√.
Isso pode ser feito para parecer com a estatística t do teste de hipótese correspondente (para comparar as duas médias) com manipulações algébricas simples, produzindo
m1−m2s21/n1+s22/n2−−−−−−−−−−−√>s1n2−−√tα(n1)+s2n1−−√tα(n2)n1s22+n2s21−−−−−−−−−√.
O lado esquerdo é a estatística usada no teste de hipótese; geralmente é comparado a um percentil de uma distribuição t de Student com graus de liberdade: ou seja, com . O lado direito é uma média ponderada parcial dos percentis de distribuição t originais.n1+n2tα(n1+n2)
Até agora, a análise justifica a resposta de @Brett: parece não haver um relacionamento simples disponível. No entanto, vamos investigar mais. Estou inspirado a fazê-lo porque, intuitivamente, uma não sobreposição de intervalos de confiança deve dizer algo!
Primeiro, observe que essa forma do teste de hipótese é válida somente quando esperamos que s1 e s2 sejam pelo menos aproximadamente iguais. (Caso contrário, enfrentar o notório problema Behrens-Fisher e suas complexidades.) Após a verificação da igualdade aproximada dos si , poderíamos criar uma simplificação aproximada na forma
m1−m2s1/n1+1/n2−−−−−−−−−−√>n2−−√tα(n1)+n1−−√tα(n2)n1+n2−−−−−−√.
Aqui, . Realisticamente, não devemos esperar que essa comparação informal dos limites de confiança tenha o mesmo tamanho que . Nossa pergunta então é se existe um tal que o lado direito seja (pelo menos aproximadamente) igual à estatística t correta. Ou seja, para ques≈s1≈s2αα′α′ é o caso que
tα′(n1+n2)=n2−−√tα(n1)+n1−−√tα(n2)n1+n2−−−−−−√?
Acontece que, para tamanhos iguais de amostra, e são conectados (com uma precisão bastante alta) por uma lei de energia. αα′ Por exemplo, aqui está um gráfico de log-log dos dois para os casos (linha azul mais baixa), (linha vermelha do meio), (linha dourada mais alta). A linha tracejada verde do meio é uma aproximação descrita abaixo. A retidão dessas curvas esconde uma lei do poder. Varia com , mas não muito.n1=n2=2n1=n2=5n1=n2=∞n=n1=n2
A resposta depende do conjunto , mas é natural imaginar o quanto isso realmente varia com as alterações nos tamanhos das amostras. Em particular, poderíamos esperar que, para tamanhos de amostra moderados a grandes (talvez ou aproximadamente), o tamanho da amostra faça pouca diferença. Nesse caso, poderíamos desenvolver uma maneira quantitativa de relacionar com{n1,n2}n1≥10,n2≥10α′α .
Essa abordagem funciona, desde que os tamanhos das amostras não sejam muito diferentes entre si. No espírito da simplicidade, relatarei uma fórmula abrangente para calcular o tamanho do teste correspondente ao tamanho do intervalo de confiançaα′α . Isto é
α′≈eα1.91;
isso é,
α′≈exp(1+1.91log(α)).
Essa fórmula funciona razoavelmente bem nessas situações comuns:
Os dois tamanhos de amostra estão próximos um do outro, e não é muito extremo ( ou mais).n1≈n2αα>.001
Um tamanho de amostra está cerca de três vezes o outro e o menor não é muito pequeno (aproximadamente, maior que ) e, novamente, não é muito extremo.10α
Um tamanho de amostra está três vezes mais que o ou mais.α>.02
O erro relativo (valor correto dividido pela aproximação) na primeira situação é plotado aqui, com a linha inferior (azul) mostrando o caso , a linha do meio (vermelha) o caso e a linha superior (dourada) do caso n 1 = n 2 = ∞n1=n2=2n1=n2=5n1=n2=∞ . Interpolando entre os dois últimos, vemos que a aproximação é excelente para uma ampla gama de valores práticos de α quando o tamanho da amostra é moderado (em torno de 5-50) e, caso contrário, é razoavelmente bom.
Isso é mais do que suficiente para observar vários intervalos de confiança.
Para resumir, a falha de dois 2α2eα1.91
2α
2α 2α′
0,05 0,005
0,01 0,0002
0,005 0,00006
2α=.05p<.005n.0037n=2.0056n=∞
Esse resultado justifica (e espero que melhore) a resposta de @John. Assim, embora as respostas anteriores pareçam estar em conflito, ambas estão (à sua maneira) corretas.