Os erros de manipulação de dados já estão 'precificados' na análise estatística?

Ok, aviso justo - esta é uma pergunta filosófica que não envolve números. Eu tenho pensado muito sobre como os erros se infiltram nos conjuntos de dados ao longo do tempo e como isso deve ser tratado pelos analistas - ou se é realmente importante?

Como pano de fundo, estou analisando um estudo de longo prazo que envolve muitos conjuntos de dados coletados por provavelmente 25 pessoas entre 7 e 8 anos - ninguém jamais colocou todos os dados em uma estrutura coerente (esse é o meu trabalho). Venho fazendo muitas entradas de dados (transcrevendo fotocópias de cadernos de laboratório antigos) e continuo encontrando pequenos erros de transcrição cometidos por outras pessoas, além de encontrar entradas de dados difíceis ou impossíveis de ler - principalmente porque a tinta desapareceu com o tempo. Estou usando o contexto para fazer 'melhores palpites' sobre o que os dados dizem e deixando os dados apontados completamente, se não tiver certeza. Mas continuo pensando no fato de que toda vez que os dados são copiados, a frequência dos erros aumenta inevitavelmente até que os dados originais sejam completamente perdidos.

Portanto, isso me leva a um pensamento: além dos erros de instrumento / medição e erros de gravação, há um componente fundamental de 'erro de manipulação de dados' que aumentará ao longo do tempo e com mais manipulação dos dados (observação: provavelmente apenas mais uma maneira de afirmar a 2ª lei da Termodinâmica, certo? A entropia de dados sempre aumentará). Consequentemente, eu me pergunto se deve haver algum tipo de 'correção' introduzida para explicar a história de vida dos conjuntos de dados (algo semelhante a uma correção de Bonferroni)? Em outras palavras, devemos assumir que conjuntos de dados mais antigos ou mais copiados são menos precisos e, se for o caso, devemos ajustar as descobertas adequadamente?

Mas, então, meu outro pensamento é que os erros são uma parte inerente da coleta e tratamento de dados, e como todos os testes estatísticos foram desenvolvidos com dados do mundo real, talvez essas fontes de erro já estejam "precificadas" para a análise?

Além disso, outro ponto que vale a pena mencionar é que, como os erros de dados são aleatórios, é muito mais provável que eles reduzam a força de uma descoberta do que a aprimorem - em outras palavras, erros de manipulação de dados levariam a erros do Tipo 2, não a erros do Tipo 1 . Portanto, em muitos contextos, se você estivesse usando dados antigos / questionáveis e ainda encontrasse um efeito, isso aumentaria sua confiança de que o efeito é real (porque era forte o suficiente para sobreviver à adição de erro aleatório no conjunto de dados). Então, por esse motivo, talvez a 'correção' deva seguir o outro caminho (aumentar o nível alfa necessário para uma 'descoberta') ou simplesmente não nos incomodar?

De qualquer forma, desculpe-me por ser tão detalhado e obtuso, não tenho muita certeza de como fazer essa pergunta de forma mais concisa. Obrigado por me acompanhar.

dataset error

— Jas Max
fonte

É uma ótima pergunta (+1). Um ponto, no entanto: pode ser um erro substancial tratar a maioria dos erros de dados mencionados como "aleatórios". Por exemplo, costuma haver muito mais trocas dos dígitos "0", "5", "6" e "8" durante as transcrições do que em outros dígitos (e algumas delas podem ser interpretadas como "." E vice-versa ) Além disso, as alterações feitas em valores de dados importantes (como os extremos) são frequentemente identificadas e corrigidas rapidamente. Embora certamente exista algum elemento de chance nesses processos de corrupção de dados, caracterizá-los corretamente pode ser uma questão importante.

— whuber

Por que você não trata os erros de manipulação de dados como parte dos erros de medição e os trata de acordo? Se a fim de medir os pilotos parque de diversões número, eu preciso implantar 20 pessoas para assistir os portões, então eu posso considerar esta equipe de 20 pessoas como um dispositivo de medição de tipos

— Aksakal

@whuber, ainda é aleatória para misturar-se 8 e 5, embora possa não têm igual probabilidade com misturar 5 e 7.

— Aksakal

@whuber, esse é um ponto fascinante (frequência diferente de certos tipos de erros de transcrição) em que eu não tinha pensado. Você pode me indicar alguma fonte para saber mais sobre isso? Isso me faz pensar se um teste de qualidade de dados pode ser desenvolvido, com base na frequência de dígitos? Ouvi falar de testes semelhantes para dados fraudulentos / falsificados com base na frequência de dígitos, então imagino que algo semelhante seria possível se as tendências mencionadas fossem consistentes.

— Jas Max

@ whuber, mais um pensamento. Você menciona que 0, 5, 6, 8 são frequentemente confusos - porque são parecidos? Isso me faz perceber que diferentes fontes de erro teriam erros de substituição característicos - por exemplo, se você estivesse ouvindo os dados (gravando o que alguém disse), acho que 5 e 9 provavelmente seriam confundidos com mais frequência. Se a fonte do erro foi entropia (desbotamento da tinta ou movimento dos elétrons), acho que a substituição seria mais aleatória, mas possivelmente também única. Se esses padrões persistirem, talvez você possa investigar fontes de erro em grandes conjuntos de dados, com base na frequência de dígitos.

— Jas Max

Segundo a sugestão do @Aksakal: Se o analista considerar que o erro de medição é potencialmente importante, ele pode e deve ser modelado explicitamente como parte do processo de geração de dados.

Vejo várias considerações que argumentam contra a introdução de um fator de correção genérico baseado em, por exemplo, a idade do conjunto de dados.

Primeiro, a idade pode ser uma proxy muito ruim para o grau de deterioração dos dados. A tecnologia de duplicação, compressão e conservação, e o grau de esforço e cuidado para verificar a transcrição correta, são aparentemente os fatores importantes. Alguns textos antigos (por exemplo, a Bíblia) são conservados há séculos com uma degradação aparentemente nula. Seu exemplo de VHS, embora legítimo, é realmente incomum, pois cada evento de duplicação sempre apresenta erro e não há maneiras fáceis de verificar e corrigir erros de transcrição - se alguém usar tecnologias baratas e amplamente disponíveis para duplicação e armazenamento. Espero que se reduza substancialmente o grau de erros introduzidos, através de investimentos em sistemas mais caros.

Este último ponto é mais geral: conservação e propagação de dados são atividades econômicas . A qualidade da transmissão depende muito dos recursos utilizados. Essas escolhas, por sua vez, dependerão da importância percebida dos dados para quem estiver duplicando e transmitindo.

Considerações econômicas também se aplicam ao analista. Sempre há mais fatores que você pode levar em consideração ao fazer sua análise. Em que condições os erros de transcrição de dados serão substanciais o suficiente e importantes o suficiente para valer a pena levar em consideração? Meu palpite é: essas condições não são comuns. Além disso, se a degradação potencial dos dados for considerada importante o suficiente para explicá-la em sua análise, provavelmente será importante o suficiente para modelar explicitamente o processo, em vez de inserir uma etapa genérica de "correção".

Finalmente, não há necessidade de desenvolver um fator de correção genérico de novo . Já existe um corpo substancial de teoria e prática estatística para analisar conjuntos de dados para os quais o erro de medição é visto como importante.

Em suma: é um pensamento interessante. Mas não acho que isso deva provocar mudanças na prática analítica.

— Arthur Small
fonte