Ok, aviso justo - esta é uma pergunta filosófica que não envolve números. Eu tenho pensado muito sobre como os erros se infiltram nos conjuntos de dados ao longo do tempo e como isso deve ser tratado pelos analistas - ou se é realmente importante?
Como pano de fundo, estou analisando um estudo de longo prazo que envolve muitos conjuntos de dados coletados por provavelmente 25 pessoas entre 7 e 8 anos - ninguém jamais colocou todos os dados em uma estrutura coerente (esse é o meu trabalho). Venho fazendo muitas entradas de dados (transcrevendo fotocópias de cadernos de laboratório antigos) e continuo encontrando pequenos erros de transcrição cometidos por outras pessoas, além de encontrar entradas de dados difíceis ou impossíveis de ler - principalmente porque a tinta desapareceu com o tempo. Estou usando o contexto para fazer 'melhores palpites' sobre o que os dados dizem e deixando os dados apontados completamente, se não tiver certeza. Mas continuo pensando no fato de que toda vez que os dados são copiados, a frequência dos erros aumenta inevitavelmente até que os dados originais sejam completamente perdidos.
Portanto, isso me leva a um pensamento: além dos erros de instrumento / medição e erros de gravação, há um componente fundamental de 'erro de manipulação de dados' que aumentará ao longo do tempo e com mais manipulação dos dados (observação: provavelmente apenas mais uma maneira de afirmar a 2ª lei da Termodinâmica, certo? A entropia de dados sempre aumentará). Consequentemente, eu me pergunto se deve haver algum tipo de 'correção' introduzida para explicar a história de vida dos conjuntos de dados (algo semelhante a uma correção de Bonferroni)? Em outras palavras, devemos assumir que conjuntos de dados mais antigos ou mais copiados são menos precisos e, se for o caso, devemos ajustar as descobertas adequadamente?
Mas, então, meu outro pensamento é que os erros são uma parte inerente da coleta e tratamento de dados, e como todos os testes estatísticos foram desenvolvidos com dados do mundo real, talvez essas fontes de erro já estejam "precificadas" para a análise?
Além disso, outro ponto que vale a pena mencionar é que, como os erros de dados são aleatórios, é muito mais provável que eles reduzam a força de uma descoberta do que a aprimorem - em outras palavras, erros de manipulação de dados levariam a erros do Tipo 2, não a erros do Tipo 1 . Portanto, em muitos contextos, se você estivesse usando dados antigos / questionáveis e ainda encontrasse um efeito, isso aumentaria sua confiança de que o efeito é real (porque era forte o suficiente para sobreviver à adição de erro aleatório no conjunto de dados). Então, por esse motivo, talvez a 'correção' deva seguir o outro caminho (aumentar o nível alfa necessário para uma 'descoberta') ou simplesmente não nos incomodar?
De qualquer forma, desculpe-me por ser tão detalhado e obtuso, não tenho muita certeza de como fazer essa pergunta de forma mais concisa. Obrigado por me acompanhar.