Sublinho todas as respostas já dadas, mas vamos chamar um gato de gato: em muitos espaços de trabalho, é quase impossível convencer a gerência de que é necessário investir em ferramentas de software "exóticas" (exóticas para elas), e muito menos contratar alguém que possa definir e mantê-lo. Eu disse a alguns clientes que eles se beneficiariam muito com a contratação de um estatístico com um conhecimento aprofundado sobre software e bancos de dados, mas "não posso fazer" é a resposta geral.
Desde que isso não aconteça, existem algumas coisas simples que você pode fazer com o Excel que facilitarão a vida. E o primeiro disso é sem dúvida o controle de versão. Mais informações sobre controle de versão com o Excel podem ser encontradas aqui .
Algumas coisas sobre o uso do excel
As pessoas que usam o EXCEL frequentemente gostam dos recursos da fórmula do EXCEL. No entanto, essa é a fonte mais importante de erros nas folhas do EXCEL e de problemas ao tentar ler arquivos EXCEL no que diz respeito à minha experiência. Recuso-me a trabalhar com folhas contendo fórmulas.
Também forço todos com quem trabalho a entregar as folhas do EXCEL em um formato simples, o que significa que:
- A primeira linha contém os nomes das diferentes variáveis
- A planilha começa na célula A1
- Todos os dados são colocados em colunas, sem interrupções e sem formatação.
- Se possível, os dados também são salvos no formato .csv. Não é difícil escrever um script VBA que extraia os dados, reformate-os e coloque-os em um arquivo .csv. Isso também permite um melhor controle de versão, pois você pode fazer um dump .csv dos dados todos os dias.
Se houver uma estrutura geral que os dados sempre tenham, pode ser bom desenvolver um modelo com macros VB subjacentes para adicionar dados e gerar o conjunto de dados para análise. Isso geralmente evita que todo funcionário crie seu próprio sistema "genial" de armazenamento de dados e permita que você escreva seu código em função disso.
Dito isto, se você pode convencer todos a usar o SQL (e um front end para inserir dados), é possível vincular o R diretamente a esse. Isso aumentará bastante o desempenho.
Estrutura e gerenciamento de dados
Como regra geral, os dados armazenados nos bancos de dados (ou folhas EXCEL, se eles insistirem) devem ser o mínimo absoluto, o que significa que qualquer variável que possa ser calculada a partir de outras variáveis não deve estar contida no banco de dados. Lembre-se, às vezes pode ser benéfico armazenar essas variáveis derivadas ou transformadas, se os cálculos forem entediantes e demoram muito tempo. Mas eles devem ser armazenados em um banco de dados separado, se necessário, vinculado ao original.
Deve-se pensar também no que é considerado como um caso (e, portanto, uma linha). Como exemplo, as pessoas tendem a produzir séries temporais criando uma nova variável para cada ponto no tempo. Embora isso faça sentido em um EXCEL, a leitura desses dados exige bastante inversão da matriz de dados. O mesmo para comparar grupos: deve haver um indicador de grupo e uma variável de resposta, não uma variável de resposta para cada grupo. Dessa forma, as estruturas de dados também podem ser padronizadas.
A última coisa que encontro com frequência é o uso de métricas diferentes. Os comprimentos são dados em metros ou centímetros, as temperaturas em Celsius, Kelvin ou Farenheit, ... Deve-se indicar em qualquer front end ou modelo, qual é a unidade em que a variável é medida.
E mesmo depois de todas essas coisas, você ainda deseja ter uma etapa de controle de dados antes de começar a análise. Novamente, pode ser qualquer script que seja executado diariamente (por exemplo, durante a noite) em novas entradas e que sinalize problemas imediatamente (fora do intervalo, tipo errado, campos ausentes, ...) para que possam ser corrigidos o mais rápido possível. Se você precisar retornar a uma entrada feita há 2 meses para descobrir o que está errado e por quê, é melhor obter algumas "habilidades Sherlock" boas para corrigi-la.
meus 2 centavos