"Pesquisa reproduzível" como análise reprodutível
Pesquisa reproduzível é um termo usado em alguns domínios de pesquisa para se referir especificamente à realização de análises como
- O código transforma dados brutos e metadados em dados processados,
- O código executa análises nos dados e
- O código incorpora análises em um relatório.
Quando esses dados e códigos são compartilhados, isso permite que outros pesquisadores:
- realizar análises não relatadas pelos pesquisadores originais
- verificar a exatidão das análises realizadas pelos pesquisadores originais
Esse uso pode ser visto nas discussões de tecnologias como o Sweave . Por exemplo, Friedrich Leisch escreve no contexto do Sweave que "o relatório pode ser atualizado automaticamente se os dados ou análises forem alterados, o que permite uma pesquisa verdadeiramente reproduzível". Também pode ser visto na Visão da Tarefa CRAN sobre Pesquisa Reproduzível, que afirma que "o objetivo da pesquisa reproduzível é vincular instruções específicas à análise e aos dados experimentais para que a bolsa possa ser recriada, melhor compreendida e verificada".
Uso mais amplo do termo "reprodutibilidade"
A reprodutibilidade é um objetivo fundamental da ciência. Não é novo Os relatórios de pesquisa incluem seções de método e resultados que devem descrever como os dados foram gerados, processados e analisados. Uma regra geral é que os detalhes fornecidos devem ser suficientes para permitir que um pesquisador competente receba as informações fornecidas e reproduza o estudo.
A reprodutibilidade também está intimamente relacionada aos conceitos de replicabilidade e generalização.
Assim, o termo "pesquisa reproduzível", tomado literalmente, como aplicado a tecnologias como Sweave, é um nome impróprio, dado que sugere uma relevância mais ampla do que abrange. Além disso, ao apresentar tecnologias como Sweave a pesquisadores que não usaram essas tecnologias, esses pesquisadores costumam se surpreender quando chamo o processo de "pesquisa reproduzível".
Um termo melhor do que "pesquisa reproduzível"
Dado que a "pesquisa reproduzível" usada em contextos semelhantes ao Sweave refere-se apenas a um aspecto da pesquisa reproduzível, talvez um termo alternativo deva ser adotado. As alternativas possíveis incluem:
- Análise reproduzível:
- Análise de dados reproduzíveis
- Análise estatística reproduzível
- Relatórios reproduzíveis
Todos os termos acima são um reflexo mais preciso do que as análises do tipo Sweave envolvem. A análise reproduzível é curta e agradável. Adicionar "dados" ou "estatísticos" esclarece ainda mais as coisas, mas também torna o termo mais longo e mais estreito. Além disso, "estatístico" tem um significado estreito e amplo, e certamente dentro do significado estreito, grande parte do processamento de dados não é estatístico. Assim, a amplitude implícita no termo "análise reprodutível" tem suas vantagens .
Não se trata apenas de reprodutibilidade
A outra questão adicional com o termo "pesquisa reproduzível" é o objetivo das tecnologias do tipo Sweave não é apenas "reprodutibilidade". Existem vários objetivos inter-relacionados:
- Reprodutibilidade
- As análises podem ser facilmente reexecutadas para transformar dados brutos em relatório final com os mesmos resultados?
- Correção
- A análise dos dados é consistente com as intenções do pesquisador?
- As intenções do pesquisador estão corretas?
- Abertura
- Transparência, responsabilidade
- Outras pessoas podem verificar e verificar a precisão das análises realizadas?
- Extensibilidade, modificabilidade
- Outras pessoas podem modificar, ampliar, reutilizar e misturar dados, análises ou ambos para criar novos trabalhos de pesquisa?
Há um argumento de que a análise reprodutível deve promover análises corretas, porque há um registro escrito das análises que podem ser verificadas. Além disso, se os dados e o código são compartilhados, ele cria uma responsabilidade que motiva os pesquisadores a verificar suas análises e permite que outros pesquisadores observem correções.
A análise reprodutível também se ajusta de perto aos conceitos em torno da pesquisa aberta. Obviamente, um pesquisador pode usar tecnologias semelhantes ao Sweave apenas para si. Os princípios de pesquisa aberta incentivam o compartilhamento dos dados e o código de análise para permitir maior reutilização e responsabilidade.
Isso não é realmente uma crítica ao uso da palavra "reproduzível". Pelo contrário, apenas destaca que o uso de tecnologias semelhantes ao Sweave é necessário, mas não suficiente para alcançar objetivos abertos de pesquisa científica.