Em uma pergunta anterior, perguntei sobre ferramentas para editar arquivos CSV .
Gavin vinculou a um comentário no R Help de Duncan Murdoch, sugerindo que o Data Interchange Format é uma maneira mais confiável de armazenar dados que o CSV.
Para algumas aplicações, é necessário um sistema de gerenciamento de banco de dados dedicado. No entanto, para projetos de análise de dados em pequena escala, algo mais leve parece mais adequado.
Considere os seguintes critérios para avaliar um formato de arquivo:
- confiável : os dados inseridos devem permanecer fiéis ao que foi digitado; os dados devem abrir consistentemente em diferentes softwares;
- simples : seria bom se o formato do arquivo fosse fácil de entender e idealmente legível com um editor de texto simples; deve ser fácil escrever um programa simples para ler e escrever o formato.
- aberto : o formato deve estar aberto
- interoperável : o formato do arquivo deve ser suportado por muitos sistemas
Acho que os formatos de valores separados por tabulação e vírgula falham no critério de confiabilidade. Embora eu suponha que possa culpar os programas de importação e exportação em vez do formato de arquivo. Costumo me fazer pequenos ajustes nas opções
read.table
para impedir que algum caractere estranho interrompa o carregamento do quadro de dados.
Questões
- Qual formato de arquivo melhor atende a essas necessidades?
- O Data Interchange Format é uma alternativa melhor? ou tem seus próprios problemas?
- Existe algum outro formato preferível?
- Estou avaliando injustamente TSV e CSV? Existe um conjunto simples de dicas para trabalhar com esses arquivos que tornam o formato do arquivo mais confiável?
write.DIF()
por isso é um pouco de rua de mão única, eu tenho medo.