Pergunto-me por que se diz que várias correções de teste são "arbitrárias" e que são baseadas em uma filosofia incoerente que
a veracidade de uma afirmação depende de quais outras hipóteses são consideradas
veja, por exemplo, respostas e comentários para O que há de errado nos ajustes da Bonferroni? e, em particular, a discussão entre @FrankHarrell e @Bonferroni.
Vamos (por simplicidade e facilidade da exposição) assumir que temos duas populações normais (independentes), independentes e com desvios padrão conhecidos, mas com meios desconhecidos. Digamos (apenas como exemplo) que esses desvios padrão são resp. .
Teste conjunto
Suponha que desejamos testar a hipótese versus H_1: \ mu_1 \ ne 2 | \ mu_2 \ ne 2 no nível de significância \ alpha = 0,05 (o símbolo \ & significa 'e' while | significa 'ou').
Também temos um resultado aleatório da primeira população e da segunda população.
se for verdadeiro, a primeira variável aleatória e a segunda , pois assumimos a independência. a variável aleatória é com . Podemos usar esse como uma estatística de teste e aceitaremos se, para os resultados observados e for sustentado que . Em outras palavras, a região de aceitação para este teste é uma elipse centrada em e temos uma massa de densidade de '' no topo '' desta elipse.
Testes múltiplos
Com vários testes, faremos dois testes independentes e '' ajustaremos '' o nível de significância. Portanto, executaremos dois testes independentes versus e um segundo teste versus mas com um nível de significância ajustado Que seja tal que ou ou ou que produz .
Nesse caso, aceitaremos e (e os dois juntos são equivalentes ao nosso '' original '' ) sempre que e
Portanto, concluímos que, com vários testes, a região de aceitação para se tornou um retângulo com centro e com uma massa de probabilidade de em cima.
Conclusão
Portanto, descobrimos que, para um teste de junta ( ), a forma geométrica da região de aceitação é uma elipse, enquanto que com vários testes, é um retângulo. A massa de densidade '' em cima '' da região de aceitação é, em ambos os casos, 0,95.
Questões
Então, qual é o problema com vários testes? Se existe esse problema, (ver supra) o mesmo problema deve existir para testes em conjunto ou não? O motivo não pode ser o fato de preferirmos elipses sobre retângulos, não é?