Respostas:
À lista de chl, que se concentra em erros francos de processamento de dados, eu adicionaria verificações de erros mais sutis para abordar as seguintes questões e problemas (fornecidos em nenhuma ordem específica e certamente incompletos):
Assumindo a integridade do banco de dados, os dados são razoáveis? Eles atendem aproximadamente às expectativas ou aos modelos convencionais ou surpreenderiam alguém familiarizado com dados semelhantes?
Os dados são internamente consistentes? Por exemplo, se um campo deve ser a soma de dois outros, é?
Quão completos são os dados? Eles foram especificados durante a fase de planejamento da coleta de dados? Existem dados extras que não foram planejados? Se sim, por que eles estão lá?
A maioria das análises modela implícita ou explicitamente os dados de maneira parcimoniosa e inclui a possibilidade de variação da descrição geral. Cada um desses modelos sugere sua própria maneira particular de identificar discrepantes - os dados que divergem notavelmente da descrição geral. Foram feitas tentativas para identificar e entender discrepantes em cada estágio da exploração e análise?
Em muitos casos, é possível que o analista introduza dados adicionais na análise para verificação e percepção da qualidade. Por exemplo, muitos conjuntos de dados nas ciências naturais e sociais e nos negócios incluem (pelo menos implicitamente) informações de localização: identificadores de regiões do Censo; nomes de países, estados, condados; CEPs de clientes; e assim por diante. Mesmo que - talvez especialmente se - a correlação espacial não seja um elemento da EDA ou da modelagem, o analista pode associar os dados às representações geográficas dos locais e mapeá-los para procurar padrões e valores extremos.
Um dos erros mais insidiosos que podem surgir na análise é a perda de dados. Ao extrair campos, resumir dados, reformatar conjuntos de dados, etc., se um ou dois itens forem descartados de um grande conjunto de dados, geralmente não haverá nada para sinalizá-lo. Mas, ocasionalmente, algo importante é perdido, para extremo constrangimento, se é que algum dia é descoberto. Verificações simples - como comparar contagens antes e depois e totais de dados - precisam ocorrer rotineiramente para se proteger contra essas coisas.
Outro erro insidioso está associado à conversão de tipos na computação digital. Por exemplo, recentemente tive que construir uma chave (para combinar dois arquivos de dados) a partir de um campo de ponto flutuante. O software (Stata) importou o campo como uma única precisão flutuante em um arquivo, mas, por qualquer motivo, como uma precisão dupla flutuante em outro arquivo. Na maioria das vezes, os valores correspondiam, mas, em alguns casos, devido a diferentes arredondamentos, não correspondiam. Alguns dados foram perdidos como resultado. Eu peguei isso apenas devido à aplicação de (6). Em geral, vale a pena verificar a consistência dos tipos de dados de campo: ints vs. floats, comprimentos de strings, etc.
Se uma planilha for usada em qualquer estágio da análise, espere o pior. O problema é que mesmo um pressionamento de tecla perdido pode corromper invisivelmente os dados. Quando os resultados são críticos, vale a pena continuar indo e vindo - exportar para a planilha, fazer a análise, importar de volta e comparar sistematicamente - para garantir que nada de ruim aconteça.
Sempre que um banco de dados é atualizado, vale a pena pausar e executar comparações sistemáticas e completas com o antigo para garantir que nada foi perdido, alterado ou corrompido no processo.
Em um nível superior, sempre que uma estimativa é realizada (como uma regressão, PCA, qualquer que seja), pode valer a pena usá-la usando uma técnica diferente para verificar sensibilidades ou até possíveis erros no código. Por exemplo, siga uma regressão OLS por alguma forma de regressão robusta e compare os coeficientes. Para resultados importantes, pode ser reconfortante obter as respostas usando duas (ou mais) plataformas de software diferentes.
Talvez o melhor tipo de "verificação de consistência" geral que alguém possa executar seja representar graficamente tudo, cedo e frequentemente.
Suponho que isso esteja relacionado a alguma forma de controle de qualidade sobre a integridade dos dados e, mais especificamente, que você verifique regularmente se o banco de dados em funcionamento não está corrompido (devido a erro durante a transferência, cópia ou após uma atualização ou uma verificação de integridade ). Isso também pode significar garantir que sua computação intermediária seja verificada duas vezes (manualmente ou por meio de código ou macros adicionais em seu software estatístico).
Outras informações podem ser encontradas aqui: o guia de referência ICH E6 (R1) sobre as Diretrizes de Boas Práticas Clínicas da EMEA, Diretrizes sobre Boas Práticas Clínicas de Laboratório ou a Caixa de Ferramentas do Investigador de Estudo Clínico .
para adicionar aos outros bons pontos
Ao usar o Excel, eu sempre gere um número de caso como a primeira coluna para cada linha, que é copiada para a última coluna. O Excel parece muito feliz em classificar apenas algumas colunas por vez, causando caos se você não tiver o cuidado de selecionar todas elas. Você pode nem estar ciente de que isso aconteceu. Ser capaz de verificar se os números dos casos concordam na primeira e na última coluna de uma linha é uma precaução útil.
Eu sempre reviso os valores extremos.
Recomenda-se a entrada dupla de dados por pessoas separadas para trabalhos críticos.
Ao inserir dados de documentos em papel, é recomendável usar um identificador de referência para poder consultar o documento e a linha exatos dos quais a entrada derivou, a numeração dos formulários de entrada de dados ajuda nisso.
Editar - Outro item - eu sei que a edição de planilhas está repleta de problemas, mas é muito mais fácil limpar a entrada de dados com elas. No entanto, também mantenho a versão original não editada, para que quaisquer alterações possam ser verificadas ou, na pior das hipóteses, restauradas.