Isso é uma resposta ao @vinesh, além de examinar o princípio geral da pergunta original.
Existem realmente duas questões aqui com várias comparações: à medida que aumentamos o número de comparações feitas, temos mais informações que facilitam a visualização de diferenças reais, mas o aumento do número de comparações também facilita a visualização de diferenças que não existem (falsos positivos, dragagem de dados, tortura dos dados até que confesse).
Pense em uma turma com 100 alunos, cada um deles recebe uma moeda justa e é instruído a jogar a moeda 10 vezes e usar os resultados para testar a hipótese nula de que a proporção de cabeças é de 50%. Esperamos que os valores de p variem entre 0 e 1 e, por acaso, esperamos ver cerca de 5 dos alunos obtendo valores de p inferiores a 0,05. De fato, ficaríamos muito surpresos se nenhum deles obtivesse um valor p menor que 0,05 (menor que 1% de chance disso acontecer). Se apenas olharmos para os poucos valores significativos e ignorarmos todos os outros, concluiremos falsamente que as moedas são tendenciosas, mas se usarmos uma técnica que leva em conta as múltiplas comparações, provavelmente ainda julgaremos corretamente que as moedas são justas (ou pelo menos deixar de rejeitar que são justos).
Por outro lado, considere um caso semelhante em que temos 10 alunos lançando um dado e determinando se o valor está no conjunto {1,2,3} ou no conjunto {4,5,6}, cada um dos quais terá 50% dê uma chance a cada jogada se o dado for justo (mas pode ser diferente se o dado for manipulado). Todos os 10 alunos calculam valores p (nulo é 50%) e obtêm valores entre 0,06 e 0,25. Agora, neste caso, nenhum deles atingiu o limite mágico de 5%, portanto, olhar para os resultados de qualquer aluno individualmente não resultará em uma declaração não justa, mas todos os valores de p são menores que 0,5, se todos os dados forem justos então os valores de p devem ser distribuídos uniformemente e têm 50% de chance de estar acima de 0,5. A chance de obter 10 valores de p independentes, todos inferiores a 0,5, quando os nulos são verdadeiros, é menor que a mágica 0,05 e isso sugere que os dados são tendenciosos,
Agora, o lançamento de moedas e a rolagem de matrizes são um pouco artificial, então um exemplo diferente: eu tenho uma nova droga que quero testar. Meu orçamento me permite testar a droga em 1.000 indivíduos (essa será uma comparação emparelhada, com cada sujeito sendo seu próprio controle). Estou considerando dois modelos de estudo diferentes; no primeiro, recruto 1.000 indivíduos para o estudo e relatam um único valor p. No segundo desenho, recruto 1.000 sujeitos, mas os divido em 100 grupos de 10 cada, faço o estudo em cada um dos 100 grupos de 10 e calculo um valor p para cada grupo (100 valores totais p). Pense nas possíveis diferenças entre as 2 metodologias e como as conclusões podem diferir. Uma abordagem objetiva exigiria que ambos os modelos de estudo levassem à mesma conclusão (considerando os mesmos 1.000 pacientes e todo o resto é o mesmo).
@mljrg, por que você escolheu comparar g1 e g2? Se essa era uma questão de interesse antes de coletar qualquer dado, o valor p de MW é razoável e significativo; no entanto, se você fez o teste de KW, olhou para ver quais 2 grupos eram os mais diferentes e fez o teste de MW apenas naqueles que parecia o mais diferente, as suposições para o teste de MW foram violadas e o valor de p de MW não faz sentido e o valor de p de KW é o único com significado potencial.