Coleto amostras muito grandes (> 1.000.000) de dados categóricos todos os dias e desejo que os dados pareçam "significativamente" diferentes entre os dias para detectar erros na coleta de dados.
Eu pensei que usar um teste de ajuste adequado (em particular, um teste G) seria um bom ajuste (trocadilhos) para isso. A distribuição esperada é dada pela distribuição do dia anterior.
Mas, como o tamanho da minha amostra é muito grande, o teste tem uma potência muito alta e gera muitos falsos positivos. Ou seja, mesmo uma flutuação diária muito menor fornecerá um valor p próximo de zero.
Acabei multiplicando minha estatística de teste por alguma constante (0,001), que tem a boa interpretação de amostrar os dados nessa taxa. Este artigo parece concordar com essa abordagem. Eles disseram aquilo:
O quadrado de Chi é mais confiável, com amostras entre aproximadamente 100 a 2500 pessoas
Estou procurando mais comentários oficiais sobre isso. Ou talvez algumas soluções alternativas para falsos positivos ao executar testes estatísticos em grandes conjuntos de dados.