Como se pode esperar de Hadley, o artigo dele contém uma boa definição de dados organizados e eu concordo com quase tudo no artigo dele e acredito que isso não é válido apenas para "profissionais de dados". No entanto, alguns dos pontos que ele destaca são relativamente fáceis de corrigir (por exemplo, com pacotes que ele criou), se alguns problemas mais fundamentais forem evitados. A maioria desses problemas é resultado do amplo uso do Excel. O Excel é uma ferramenta valiosa e tem seus méritos, mas algumas de suas instalações resultam em problemas para os analistas de dados.
Alguns pontos (das minhas experiências):
- Algumas pessoas gostam de planilhas coloridas e fazem uso abundante das opções de formatação. Tudo bem, se isso os ajudar a organizar seus dados e preparar tabelas para apresentação. No entanto, é perigoso se uma cor de célula realmente codificar dados. É fácil perder esses dados e muito difícil importá-los para o software estatístico (por exemplo, consulte esta pergunta no Stack Overflow).
- Às vezes, recebo alguns dados bem formatados (depois de dizer às pessoas como prepará-los), mas, apesar de pedir que usem uma coluna dedicada ou um arquivo separado para comentários, eles decidem colocar um comentário em uma coluna de valor. Não apenas preciso lidar com essa coluna de uma maneira especial ao importar os dados, mas o principal problema é que eu precisaria rolar por toda a tabela para ver esses comentários (o que normalmente não faria). Isso fica ainda pior se eles usarem os recursos de comentários do Excel.
- Planilhas com várias tabelas, várias linhas de cabeçalho ou células conectadas resultam em trabalho manual para prepará-las para importação em software estatístico. Os bons analistas de dados geralmente não gostam desse tipo de trabalho manual.
- Nunca, jamais oculte colunas no Excel. Se eles não forem necessários, exclua-os. Se necessário, mostre-os.
- O xls e seus descendentes não são formatos de arquivo adequados para trocar dados com outras pessoas ou arquivá-los. As fórmulas são atualizadas quando o arquivo é aberto e diferentes versões do Excel podem manipular os arquivos de maneira diferente. Em vez disso, recomendo um arquivo CSV simples, pois quase todos os softwares relacionados a dados podem importar isso (até o Excel) e pode-se esperar que isso não mude em breve. No entanto, esteja ciente de que o Excel arredonda para dígitos visíveis ao salvar em um CSV (descartando a precisão).
- Se você deseja facilitar a vida de outras pessoas, siga os princípios dados no artigo de Hadley. Tenha uma coluna de valor para cada coluna de variável e fator que define os estratos.
Provavelmente existem vários pontos adicionais que não me vieram à mente.