Diferença entre os testes unicaudais e bicaudais?


13

Enquanto estudava no meu curso de estatísticas, eu estava tentando entender a diferença entre testes de hipótese uni e bicaudal. Especificamente, por que o teste de uma cauda rejeita o nulo, enquanto o teste de duas caudas não?

Um exemplo:

a diferença entre testes de hipótese uni e bicaudal


Observe que você está rejeitando apenas em um nível de significância especificado. Você ainda pode rejeitar ambas as hipóteses, aumentando o nível de significância para 10%. você também falharia em rejeitar os dois se reduzisse o nível de significância para 1%.
probabilityislogic

Respostas:


11

Um teste bicaudal testa a diferença em qualquer direção. Assim, o valor de P seria a área sob a distribuição t à direita de t = 1,92 MAIS a área sob a distribuição à esquerda de t = -1,92. Isso é o dobro da área do teste de uma cauda e, portanto, o valor de P é duas vezes maior.

Se você usa um teste de uma cauda, ​​obtém poder, mas com o custo potencial de ter que ignorar uma diferença que está na direção oposta à hipotetizada antes da obtenção dos dados. Se você obteve os dados antes de formalizar e registrou a hipótese, realmente deveria usar um teste bicaudal. Da mesma forma, se você estiver interessado em um efeito em qualquer direção, use um teste bicaudal. De fato, você pode usar um teste bicaudal como sua abordagem padrão e usar apenas um teste unilateral no caso incomum em que um efeito só pode existir em uma direção.


Obrigado pelo seu comentário, Michael. Aqui está o que eu não entendo: como a área sob a curva pode ser duas vezes maior para o teste bicaudal? P não deveria ser o mesmo nos dois casos, já que alfa = 0,05?
11268 Lu Lu Ci

alpha, na sua pergunta, é apenas o seu ponto de corte para tomar uma decisão sobre o que p-significa (rejeitar nulo ou não). Portanto, não influencia qual é o valor de p.
John

Um pouco exigente, mas a noção de que você precisa escolher a hipótese antes de ver os dados não é necessária. Você pode fazer dois testes unilaterais. Você sempre rejeitará a direção não favorecida pelos dados. Assim, faz sentido fazer o teste unilateral que é favorecido pelos dados.
probabilityislogic

1
@probabilityislogic -Eu concordo inteiramente, exceto quando alguém deseja que o valor alfa reflita a taxa de erro falso positivo real a longo prazo (ou seja, deseja-se usar a abordagem de Neyman-Pearson). Se você usar um teste unilateral e decidir a direção da mudança a ser testada com base no efeito observado, obterá exatamente o dobro de resultados positivos falsos que o seu nível alfa implicaria.
Michael Lew

É apenas a taxa de erro de longo prazo para alguém que continua ignorando os dados anteriores. Esta não é uma boa maneira de obter um bom desempenho a longo prazo. a taxa de erro dada por significância está acima de todos os conjuntos de dados que poderíamos ter observado uma vez .
probabilityislogic

5

A área sob a curva não é duas vezes maior para um teste bicaudal: para um teste bicaudal com p crítico = 0,05, você está testando com que frequência os dados observados podem ser obtidos a partir de 2,5% inferior ou superior de uma distribuição nula ( 0,05 no total). Com um teste unilateral, você está testando com que frequência os dados viriam da extremidade extrema de 5% de uma cauda (pré-especificada).

Em parte, a resposta para sua pergunta é uma das práticas: a maioria dos pesquisadores considera improvável a replicação de experimentos que relatam testes de uma cauda (ou seja, eles assumem que o pesquisador escolheu isso para que suas estatísticas sejam "significativas").

No entanto, existem casos de uso válidos. Se você souber que qualquer resultado na direção inversa é impossível de acordo com a teoria que está sendo testada, então, como um comentário anterior observou, você pode especificar isso com antecedência e realizar um teste unilateral. A maioria das pessoas, novamente, ainda vê isso de maneira cautelosa.


0

S(D)RR

S(D)=|t||t|>t0 0t0 0αS(D)=tt>t1t1Pr(|t|>t0 0|H0 0)Pr(t>t0 0|H0 0)t0 0t1

Isso leva à pergunta: por que usar estatísticas de teste diferentes? O motivo é que as alternativas são diferentes e, portanto, o poder de cada estatística de teste é diferente. Especificamente, o poder de cada teste é reduzido (desde que utilizemos o mesmo significado) se usarmos a estatística de teste e a região de rejeição do outro teste.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.