Quando trabalho em projetos de análise de dados, costumo armazenar dados em arquivos de dados separados por vírgula ou tabulação (CSV, TSV). Enquanto os dados geralmente pertencem a um sistema de gerenciamento de banco de dados dedicado. Para muitos dos meus aplicativos, isso seria exagero.
Posso editar arquivos CSV e TSV no Excel (ou presumivelmente outro programa de planilha). Isso tem benefícios:
- planilhas facilitam a inserção de dados
Existem também vários problemas:
- Trabalhar com arquivos CSV e TSV leva a uma ampla gama de mensagens de aviso sobre a perda de vários recursos e como somente a planilha ativa será salva e assim por diante. Portanto, é irritante se você apenas deseja abrir o arquivo e fazer uma pequena alteração.
- Faz muitas conversões "supostamente inteligentes". Por exemplo, se você digitar 12/3, ele pensará que deseja inserir uma data. UPDATE: Eu deveria ter mencionado que o exemplo de data é apenas um dos muitos exemplos; a maioria dos problemas parece estar relacionada à conversão inadequada. Em particular, os campos de texto que parecem números ou datas causam problemas.
Como alternativa, eu poderia trabalhar diretamente com o arquivo de texto em um editor de texto padrão. Isso garante que o que eu entro é o que é gravado. No entanto, é uma maneira muito incômoda de inserir dados (as colunas não se alinham; é difícil inserir dados simplesmente em várias células; etc.).
Questão
- Qual é uma boa estratégia para trabalhar com arquivos de dados CSV ou TSV? ou seja, qual estratégia facilita a inserção e manipulação dos dados, além de garantir que o que você digita seja realmente interpretado corretamente?