Qual é a diferença entre intervalos de confiança e teste de hipóteses?


28

Eu li sobre controvérsias a respeito do teste de hipóteses com alguns comentaristas sugerindo que o teste de hipóteses não deve ser usado. Alguns comentaristas sugerem que os intervalos de confiança devem ser usados.

  • Qual é a diferença entre intervalos de confiança e teste de hipóteses? Explicação com referência e exemplos seriam apreciados.

5
Acho que você queria perguntar por que relatar os resultados dos testes de hipóteses mostrando o intervalo de confiança é melhor do que apenas dizer que algo é confirmado ou rejeitado em algum nível de valor-p.

3
Você deve verificar algumas de suas outras perguntas como respondidas.
Andy W

Respostas:


19

Você pode usar um intervalo de confiança (IC) para testar hipóteses. No caso típico, se o IC de um efeito não ultrapassar 0, você poderá rejeitar a hipótese nula. Mas um IC pode ser usado para obter mais informações, enquanto relatar se foi aprovado é o limite da utilidade de um teste.

O motivo pelo qual você recomenda usar o IC em vez de apenas um teste t, por exemplo, é porque você pode fazer mais do que apenas testar hipóteses. Você pode fazer uma declaração sobre a gama de efeitos que acredita ser provável (os do IC). Você não pode fazer isso apenas com um teste t. Você também pode usá-lo para fazer declarações sobre o nulo, o que você não pode fazer com um teste t. Se o teste t não rejeitar o nulo, basta dizer que não é possível rejeitar o nulo, o que não significa muito. Mas se você tiver um intervalo de confiança estreito em torno do nulo, poderá sugerir que o nulo, ou um valor próximo a ele, provavelmente seja o valor verdadeiro e sugerir que o efeito do tratamento, ou variável independente, é muito pequeno para ser significativo ( ou que seu experimento não

Adicionado mais tarde: eu realmente deveria ter dito isso, embora você possa usar um IC como um teste, não é um. É uma estimativa de um intervalo em que você acha que os valores dos parâmetros estão. Você pode fazer testes como inferências, mas é muito melhor nunca falar sobre isso dessa maneira.

Qual é melhor?

A) O efeito é 0,6, t (29) = 2,8, p <0,05. Este efeito estatisticamente significativo é ... (alguns ensues discussão sobre este significância estatística, sem qualquer menção ou mesmo forte capacidade de discutir a implicação prática da magnitude da descoberta ... sob um quadro Neyman-Pearson a magnitude do t e Os valores de p são praticamente sem sentido e tudo o que você pode discutir é se o efeito está presente ou se não está presente. Você nunca pode realmente falar sobre realmente não haver um efeito baseado no teste.)

ou

B) Usando um intervalo de confiança de 95%, estimo o efeito entre 0,2 e 1,0. (segue-se uma discussão sobre o efeito real do interesse, se os valores plausíveis são aqueles que têm algum significado específico e qualquer uso da palavra significativo exatamente para o que deveria significar. Além disso, a largura do IC pode ir diretamente para uma discussão sobre se essa é uma descoberta forte ou se você só pode chegar a uma conclusão mais experimental)

Se você fez uma aula de estatística básica, inicialmente pode se dirigir para A. E pode haver alguns casos em que é uma maneira melhor de relatar um resultado. Mas, para a maioria dos trabalhos, B é de longe superior. Uma estimativa de faixa não é um teste.


Uma adição aos comentários de @john: primeiro, às vezes a questão principal é se o IC abrange 1, não 0 (por exemplo, regressão logística).
Peter Flom - Restabelece Monica

Gente, é 1 ou é 0? (Isso parece muito esclarecedor para mim, então eu acho, eu preciso aprender o valor correto de olhar para fora!) @ John
Adhesh Josh

Qual a relação entre o IC95% e a hipótese de teste bicaudal com alfa = 0,05? são iguais? Se não, então como?
love-stats

estatísticas de amor, quando usadas da mesma forma, são iguais.
John

Para Josh, a hipótese nula pode ser qualquer valor fixo especificado anteriormente. Essa é outra característica do IC sobre o NHST direto. É muito fácil de usar quando você quer teste contra um valor hipotético diferente de 0.
John

7

Existe uma equivalência entre testes de hipóteses e intervalos de confiança. (veja, por exemplo, http://en.wikipedia.org/wiki/Confidence_interval#Statistical_hypothesis_testing ) Vou dar um exemplo muito específico. Suponha que temos amostra de uma distribuição normal com média e variância 1, que escreveremos como . Suponha que pensamos que , e queremos testar a hipótese nula , no nívelPortanto, fazemos uma estatística de teste, que neste caso consideraremos a média da amostra: . Agora suponha quex1,x2,,xnμN(μ,1)μ=mH0:μ=m0.05.v=(x1+x2++xn)/nA(m)é a "região de aceitação" para para este teste. Isso significa que é o conjunto de valores possíveis de para os quais a hipótese nula é aceita no nível 0,05 (eu uso "aceito" como atalho para "não rejeitado" - não estou sugerindo que você concluiria que a hipótese nula é verdadeira.). Neste exemplo, podemos olhar para a distribuição normal e escolher qualquer conjunto que tenha probabilidade de pelo menos 0,95 sob essa distribuição. Agora, uma região de confiança de 95% para é o conjunto de todos os para os quais está em . Em outras palavras, é o conjunto de todos osvA(m)vμ=mN(m,1)μmvA(m)mpara o qual a hipótese nula seria aceita para o observado . É por isso que John diz "Se o IC de um efeito não ultrapassar , você poderá rejeitar a hipótese nula". (John está se referindo ao caso de testar )v0μ=0

Um tópico relacionado é o valor-p. O valor p é o menor nível para um teste no qual rejeitaríamos a hipótese nula. Para associá-lo à discussão dos intervalos de confiança, suponha que obtivemos uma amostra média média , a partir da qual construímos intervalos de confiança de tamanhos diferentes. Suponha que um intervalo de confiança de 95% para não contenha . Então podemos rejeitar a hipótese nula no nível Então suponha que aumentemos o intervalo de confiança até que ele toque (mas não inclua) o valor , e suponha que este seja um intervalo de confiança de 98%. Então o valor p para a hipótese é (que obtemos devμmμ=m0.05.mμ=m0.0210.98 ).


Leia isso, pois o valor-p não pode ser interpretado como o menor nível de teste para rejeitar nulo. "Já foi demonstrado que interpretar valores de p em experimentos únicos (ou em andamento) não é permitido em um contexto de teste de hipóteses de Neyman – Pearson. O cálculo do valor de p depende apenas da verdade da hipótese nula. O valor de p não mede a quantidade de evidência que apóia a HA; é uma medida de evidência indutiva contra H0 ". 'Source: ftp.stat.duke.edu/WorkingPapers/03-26.pdf
sree22

@ sree22 você pode expandir isso ou sugerir uma reformulação? Eu estava tentando dar uma definição de valor-p neste contexto, não uma interpretação.
DavidR 17/06

3

"Student" argumentou por intervalos de confiança com base no fato de que eles poderiam mostrar quais efeitos eram mais importantes e quais eram mais significativos.

Por exemplo, se você encontrou dois efeitos em que o primeiro teve um intervalo de confiança para seu impacto financeiro de 5 a 6 libras esterlinas, enquanto o segundo teve um intervalo de confiança de 200 a 2800 libras. O primeiro é mais estatisticamente significativo, mas o segundo é provavelmente mais importante.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.