Como um usuário entusiasta do R, bash, Python, asciidoc, (La) TeX, software de código aberto ou qualquer ferramenta un * x, não posso fornecer uma resposta objetiva. Além disso, como eu frequentemente discuto contra o uso do MS Excel ou de uma planilha de qualquer tipo (bem, você vê seus dados, ou parte deles, mas o que mais?), Eu não contribuiria positivamente para o debate. Eu não sou o único, por exemplo
- Addiction da planilha , de P. Burns.
- Precisão e exatidão do MS Excel , um post na lista de discussão 2004 R
- L. Knusel, Sobre a precisão das distribuições estatísticas no Microsoft Excel 97 , Estatísticas Computacionais e Análise de Dados, 26: 375–377, 1998. ( pdf )
- BD McCullough e B. Wilson, Sobre a precisão dos procedimentos estatísticos no Microsoft Excel 2000 e Excel XP , Estatísticas Computacionais e Análise de Dados , 40: 713–721, 2002.
- M. Altman, J. Gill e MP McDonald, Questões Numéricas em Computação Estatística para o Cientista Social , Wiley, 2004. [por exemplo, pp. 12-14]
Um colega meu perdeu todas as suas macros por causa da falta de compatibilidade com versões anteriores etc. Outro colega tentou importar dados genéticos (cerca de 700 indivíduos genotipados em 800.000 marcadores, 120 Mo), apenas para "olhar para eles". O Excel falhou, o Bloco de Notas também desistiu ... Sou capaz de "olhar para eles" com o vi e reformatar rapidamente os dados com algum script sed / awk ou perl. Então, acho que existem diferentes níveis a serem considerados ao discutir sobre a utilidade das planilhas. Você trabalha em pequenos conjuntos de dados e deseja aplicar apenas dados estatísticos elementares e talvez seja bom. Cabe a você confiar nos resultados, ou você sempre pode solicitar o código-fonte, mas talvez seja mais simples fazer um teste rápido de todos os procedimentos em linha com o benchmark NIST. Não acho que isso corresponda a uma boa maneira de fazer estatística simplesmente porque este não é um software estatístico verdadeiro (IMHO), embora, como uma atualização da lista acima mencionada, as versões mais recentes do MS Excel pareçam ter demonstrado melhorias em sua precisão para análises estatísticas, consulte Keeling e Pavur, um estudo comparativo da confiabilidade de nove pacotes de software estatístico ( CSDA 2007 51: 3811).
Ainda assim, cerca de um artigo entre 10 ou 20 (em biomedicina, psicologia, psiquiatria) inclui gráficos feitos com Excel, às vezes sem remover o fundo cinza, a linha preta horizontal ou a legenda automática (Andrew Gelman e Hadley Wickham são certamente tão felizes quanto eu ao vê-lo). Mas, geralmente, ele é o "software" mais usado, de acordo com uma pesquisa recente da FlowingData, que me lembra uma conversa antiga de Brian Ripley (co-autor do pacote MASS R) e escreve um excelente livro sobre reconhecimento de padrões. , entre outros):
Não vamos nos enganar: o software mais utilizado para estatística é o Excel (B. Ripley via Jan De Leeuw), http://www.stats.ox.ac.uk/~ripley/RSS2002.pdf
Agora, se você acha que isso fornece uma maneira rápida e fácil de realizar suas estatísticas, por que não? O problema é que ainda existem coisas que não podem ser feitas (ou pelo menos são bastante complicadas) nesse ambiente. Penso em bootstrap, permutação, análise de dados exploratória multivariada, para citar alguns. A menos que você seja muito proficiente em VBA (que não é uma linguagem de script nem de programação), estou inclinado a pensar que mesmo operações menores de dados são melhor tratadas em R (ou Matlab ou Python, fornecendo a ferramenta certa para lidar com por exemplo, o chamado data.frame). Acima de tudo, acho que o Excel não promove boas práticas para o analista de dados (mas também se aplica a qualquer "cliquódromo", consulte a discussão no Medstats sobre a necessidade de manter um registro do processamento de dados,Documentando análises e edições de dados ), e eu achei este post sobre Estatísticas práticas relativamente ilustrativo de algumas das armadilhas do Excel. Ainda assim, aplica-se ao Excel, não sei como isso se traduz em GDocs.
Sobre como compartilhar seu trabalho, costumo pensar que o Github (ou Gist para código fonte) ou o Dropbox (embora o EULA possa desencorajar algumas pessoas) são opções muito boas (histórico de revisões, gerenciamento de doações, se necessário, etc.). Não posso incentivar o uso de um software que basicamente armazena seus dados em um formato binário. Eu sei que ele pode ser importado em R, Matlab, Stata, SPSS, mas, na minha opinião:
- os dados devem estar definitivamente em formato de texto, que podem ser lidos por outro software estatístico;
- a análise deve ser reproduzível, ou seja, você deve fornecer um script completo para sua análise e deve ser executado (abordamos o caso ideal aqui perto ...) em outro sistema operacional a qualquer momento;
- seu próprio software estatístico deve implementar algoritmos reconhecidos e deve haver uma maneira fácil de atualizá-lo para refletir as melhores práticas atuais em modelagem estatística;
- o sistema de compartilhamento escolhido deve incluir recursos de versão e colaboração.
É isso aí.