O ajuste de Bonferroni sempre fornecerá um forte controle da taxa de erro familiar. Isso significa que, seja qual for a natureza e o número dos testes, ou as relações entre eles, se suas suposições forem atendidas, garantirá que a probabilidade de ter um resultado significativo errôneo entre todos os testes seja no máximo , seu erro original nível. Portanto, está sempre disponível .α
A adequação do uso (em oposição a outro método ou, talvez, nenhum ajuste) depende de seus objetivos, dos padrões de sua disciplina e da disponibilidade de melhores métodos para sua situação específica. No mínimo, você provavelmente deve considerar o método de Holm-Bonferroni, que é tão geral quanto menos conservador.
Em relação ao seu exemplo, como você está executando vários testes, você está aumentando a taxa de erro familiar (a probabilidade de rejeitar pelo menos uma hipótese nula erroneamente). Se você realizar apenas um teste em cada metade, muitos ajustes serão possíveis, incluindo o método de Hommel ou métodos que controlam a taxa de descoberta falsa (que é diferente da taxa de erro familiar). Se você realizar um teste em todo o conjunto de dados seguido por vários sub-testes, os testes não serão mais independentes e, portanto, alguns métodos não serão mais adequados. Como eu disse antes, Bonferroni está sempre disponível e com garantia de funcionar como anunciado (mas também por ser muito conservador ...).
Você também pode simplesmente ignorar todo o problema. Formalmente, a taxa de erro familiar é maior, mas com apenas dois testes ainda não é tão ruim. Você também pode começar com um teste em todo o conjunto de dados, tratado como o resultado principal, seguido de sub-testes para diferentes grupos, sem correção, porque eles são entendidos como resultados secundários ou hipóteses auxiliares.
Se você considerar muitas variáveis demográficas dessa maneira (em vez de apenas planejar testar diferenças de gênero desde o início ou talvez uma abordagem de modelagem mais sistemática), o problema se tornará mais sério com um risco significativo de "dragagem de dados" (uma diferença sai significativo por acaso, permitindo que você salve um experimento inconclusivo com uma boa história sobre a variável demográfica para inicializar, enquanto na verdade nada aconteceu) e você definitivamente deve considerar alguma forma de ajuste para vários testes. A lógica permanece a mesma com X hipóteses diferentes (testar duas hipóteses X - uma em cada metade do conjunto de dados - implica em uma taxa de erro familiar mais alta do que testar apenas as hipóteses X uma vez e você provavelmente deve se ajustar a isso).