Minha pergunta pode ser reformulada como "como avaliar um erro de amostragem usando big data", especialmente para uma publicação em periódico. Aqui está um exemplo para ilustrar um desafio.
De um conjunto de dados muito grande (> 100.000 pacientes únicos e seus medicamentos prescritos em 100 hospitais), eu estava interessado em estimar uma proporção de pacientes que tomam um medicamento específico. É fácil obter essa proporção. Seu intervalo de confiança (por exemplo, paramétrico ou de inicialização) é incrivelmente rígido / estreito, porque n é muito grande. Embora seja uma sorte ter um tamanho de amostra grande, ainda estou procurando uma maneira de avaliar, apresentar e / ou visualizar algumas formas de probabilidade de erro. Embora pareça inútil (se não enganoso) colocar / visualizar um intervalo de confiança (por exemplo, IC 95%: .65878 - .65881), também parece impossível evitar algumas declarações sobre incerteza.
Por favor, deixe-me saber o que você pensa. Eu apreciaria qualquer literatura sobre esse tópico; maneiras de evitar excesso de confiança nos dados, mesmo com um grande tamanho de amostra.