Alguém tem alguma noção dos fluxos de trabalho para análise de dados relacionados à elaboração de relatórios personalizados? O caso de uso é basicamente este:
O cliente envia um relatório que utiliza análise de dados, por exemplo, uma estimativa populacional e mapas relacionados a um distrito de água.
O analista baixa alguns dados, mescla os dados e salva o resultado (por exemplo, adicionando uma coluna para população por unidade ou subconjuntando os dados com base nos limites do distrito).
O analista analisa os dados criados em (2), aproxima-se de seu objetivo, mas vê que precisa de mais dados e volta para (1).
Enxágue repetidamente até que as tabelas e gráficos atendam ao controle de qualidade / qualidade e satisfaçam o cliente.
Escreva um relatório incorporando tabelas e gráficos.
No próximo ano, o cliente satisfeito volta e quer uma atualização. Isso deve ser tão simples quanto atualizar os dados upstream com um novo download (por exemplo, obter as licenças de construção do ano passado) e pressionar um botão "RECALCULAR", a menos que as especificações mudem.
No momento, apenas inicio um diretório e ad-hoc o melhor que posso. Gostaria de uma abordagem mais sistemática, por isso espero que alguém tenha entendido isso ... Uso uma mistura de planilhas, SQL, ARCGIS, R e ferramentas Unix.
Obrigado!
PS:
Abaixo está um Makefile básico que verifica dependências em vários conjuntos de dados intermediários (com .RData
sufixo) e scripts ( .R
sufixo). O Make usa registros de data e hora para verificar as dependências; portanto, se você touch ss07por.csv
, ele verá que esse arquivo é mais novo que todos os arquivos / destinos que dependem dele e executará os scripts fornecidos para atualizá-los adequadamente. Este ainda é um trabalho em andamento, incluindo uma etapa para inserção no banco de dados SQL e uma etapa para uma linguagem de modelagem como sweave. Observe que o Make depende de guias em sua sintaxe; portanto, leia o manual antes de cortar e colar. Aproveite e dê feedback!
http://www.gnu.org/software/make/manual/html_node/index.html#Top
R = / home / wsprague / R-2.9.2 / bin / R persondata.RData: ImportData.R ../../DATA/ss07por.csv Functions.R $ R --slave -f ImportData.R persondata.Munged.RData: MungeData.R persondata.RData Functions.R $ R --slave -f MungeData.R report.txt: TabulateAndGraph.R persondata.Munged.RData Functions.R $ R --slave -f TabulateAndGraph.R> report.txt