chl já mencionou a armadilha de múltiplas comparações ao realizar simultaneamente 25 testes com o mesmo conjunto de dados. Uma maneira fácil de lidar com isso é ajustar o limite do valor p dividindo-o pelo número de testes (neste caso, 25). A fórmula mais precisa é: Valor de p ajustado = 1 - (valor de 1 - p) ^ (1 / n). No entanto, as duas fórmulas diferentes derivam quase o mesmo valor de p ajustado.
Há outro problema importante no seu exercício de teste de hipóteses. Você certamente encontrará um erro do tipo I (falso positivo), no qual descobrirá algumas diferenças realmente triviais que são extremamente significativas no nível de 99,9999%. Isso ocorre porque quando você lida com uma amostra de tamanho tão grande (n = 1.313.662), recebe um erro padrão muito próximo de 0. Isso ocorre porque a raiz quadrada de 1.313.662 = 1.146. Então, você dividirá o desvio padrão por 1.146. Em resumo, você capturará pequenas diferenças que podem ser completamente irrelevantes.
Eu sugiro que você se afaste dessa estrutura de teste de hipóteses e, em vez disso, conduza uma análise do tipo Tamanho do efeito. Dentro dessa estrutura, a medida da distância estatística é o desvio padrão. Ao contrário do erro padrão, o desvio padrão não é artificialmente reduzido pelo tamanho da amostra. E essa abordagem fornecerá uma melhor noção das diferenças materiais entre seus conjuntos de dados. O Tamanho do Efeito também é muito mais focado no intervalo de confiança em torno da diferença média média, que é muito mais informativa do que o teste de hipóteses, focado na significância estatística que geralmente não é significativa. Espero que ajude.