Se você executar testes estatísticos independentes usando α como seu nível de significância, e o nulo for obtido em todos os casos, se você encontrará ou não 'significância' é simplesmente um empate de uma variável aleatória. Especificamente, é retirado de uma distribuição binomial com p = α e n = k . Por exemplo, se você planeja executar 3 testes usando α = 0,05 e (sem o seu conhecimento), na verdade, não há diferença em cada caso, então há 5% de chance de encontrar um resultado significativo em cada teste. Dessa forma, a taxa de erro do tipo I é mantida em αkαp=αn=kα=.05α para os testes individualmente, mas no conjunto de 3 testes a taxa de erro tipo I a longo prazo será maior. Se você acredita que é significativo agrupar / pensar nesses três testes, convém manter a taxa de erro do tipo I em para o conjunto como um todo.α , em vez de apenas individualmente. Como você deve fazer isso? Existem duas abordagens centradas na mudança do original (ou seja, α o ) para um novo valor (ie, α n e w ):ααoαnew
Bonferroni: ajuste o usado para avaliar a 'significância' de modo queα
αnew=αok
Dunn-Sidak: ajuste usandoα
αnew=1−(1−αo)1/k
(Observe que o Dunn-Sidak assume que todos os testes no conjunto são independentes um do outro e poderia gerar inflação de erro tipo I familiarmente se essa suposição não se mantiver.)
É importante observar que, ao realizar testes, existem dois tipos de erros que você quer evitar, Tipo I (ou seja, dizendo que não é uma diferença quando não há um) e tipo II (ou seja, dizendo que não é uma diferença quando realmente existe). Normalmente, quando as pessoas discutem esse tópico, elas apenas discutem - e parecem estar cientes / preocupadas com - erros do tipo I. Além disso, as pessoas geralmente esquecem de mencionar que a taxa de erro calculada só será válida se todos os nulos forem verdadeiros. É trivialmente óbvio que você não pode cometer um erro do tipo I se a hipótese nula for falsa, mas é importante ter esse fato explicitamente em mente ao discutir esse problema.
Eu trago isso à tona porque existem implicações desses fatos que parecem muitas vezes ignoradas. Primeiro, se , a abordagem Dunn-Sidak oferecerá maior potência (embora a diferença possa ser bastante pequena com k pequeno ) e, portanto, sempre será a preferida (quando aplicável). Em segundo lugar, deve ser usada uma abordagem de " abaixamento " . Ou seja, teste primeiro o maior efeito; se você está convencido de que o nulo não obtém nesse caso, o número máximo possível de erros do tipo I é dek>1k ; portanto, o próximo teste deve ser ajustado de acordo e assim por diante. (Isso muitas vezes faz as pessoas desconfortáveis e olhares como a pesca, mas énãok−1pesca, pois os testes são independentes e você pretendia conduzi-los antes de ver os dados. Essa é apenas uma maneira de ajustar ideal.) α
O acima exposto não importa como você valoriza o tipo I em relação aos erros do tipo II. No entanto, a priori, não há razão para acreditar que os erros do tipo I sejam piores que o tipo II (apesar de todos parecerem supor isso). Em vez disso, é uma decisão que deve ser tomada pelo pesquisador e deve ser específica para essa situação. Pessoalmente, se estou executando contrastes ortogonais sugeridos teoricamente, a priori , geralmente não ajusto .α
(E, para declarar isso de novo, porque é importante, tudo isso pressupõe que os testes sejam independentes. Se os contrastes não forem independentes, como quando vários tratamentos estão sendo comparados ao mesmo controle, uma abordagem diferente de α ajuste , como o teste de Dunnett, deve ser usado.)