Excel como bancada de estatística


52

Parece que muitas pessoas (inclusive eu) gostam de fazer análise exploratória de dados no Excel. Algumas limitações, como o número de linhas permitido em uma planilha, são dolorosas, mas na maioria dos casos não tornam impossível o uso do Excel para brincar com dados.

Um artigo de McCullough e Heiser , no entanto, praticamente grita que você errará todos os resultados - e provavelmente queimará também no inferno - se você tentar usar o Excel.

Este artigo está correto ou é tendencioso? Os autores parecem odiar a Microsoft.


5
Uma análise recente da precisão do software de planilha para cálculos estatísticos aparece em [Kellie B. Keeling e Robert J. Pavur (2011): Precisão Estatística do Software de Planilha, The American Statistician, 65: 4, 265-273] (atualmente, download gratuito) em amstat.tandfonline.com/doi/pdf/10.1198/tas.2011.09076 ). Os resultados são variados e talvez um pouco surpreendentes. Notável é a enorme melhoria nos cálculos de distribuição entre o Excel 2007 e o Excel 2010 (que parece ser mais preciso que o RSAS).
whuber

Respostas:


45

Use a ferramenta certa para o trabalho certo e explore os pontos fortes das ferramentas que você conhece.

No caso do Excel, existem alguns problemas importantes:

  • Não use uma planilha para gerenciar dados, mesmo que eles se encaixem em um. Você está apenas pedindo problemas, problemas terríveis. Praticamente não há proteção contra erros tipográficos, mistura de dados por atacado, truncamento de valores de dados etc., etc.

  • Muitas das funções estatísticas estão de fato quebradas. A distribuição t é uma delas.

  • Os gráficos padrão são terríveis.

  • Faltam alguns gráficos estatísticos fundamentais, especialmente gráficos de caixa e histogramas.

  • O gerador de números aleatórios é uma piada (mas, apesar disso, ainda é eficaz para fins educacionais).

  • Evite as funções de alto nível e a maioria dos suplementos; eles são c ** p. Mas este é apenas um princípio geral da computação segura: se você não tiver certeza do que uma função está fazendo, não a use. Atenha-se aos de baixo nível (que incluem funções aritméticas, classificação, exp, ln, funções trigonométricas e - dentro de limites - as funções normais de distribuição). Nunca use um suplemento que produza um gráfico: será terrível. (Nota: é fácil criar seus próprios gráficos de probabilidade do zero. Eles serão corretos e altamente personalizáveis.)

A seu favor, porém, são os seguintes:

  • Seus cálculos numéricos básicos são tão precisos quanto os flutuadores de precisão dupla. Eles incluem alguns úteis, como gama de log.

  • É muito fácil envolver um controle em torno das caixas de entrada em uma planilha, possibilitando a criação de simulações dinâmicas com facilidade.

  • Se você precisar compartilhar um cálculo com pessoas não estatísticas, a maioria terá algum conforto com uma planilha e nenhuma com software estatístico, por mais barato que seja.

  • É fácil escrever macros numéricas eficazes, incluindo a transferência de código Fortran antigo, bastante próximo do VBA. Além disso, a execução do VBA é razoavelmente rápida. (Por exemplo, eu tenho um código que calcula com precisão distribuições t não centrais do zero e três implementações diferentes de Fast Fourier Transforms.)

  • Ele suporta algumas simulações eficazes e complementos de Monte-Carlo, como Crystal Ball e @Risk. (Eles usam seus próprios RNGs, a propósito - eu verifiquei.)

  • O imediatismo de interagir diretamente com (um pequeno conjunto de) dados é incomparável: é melhor do que qualquer pacote de estatísticas, Mathematica, etc. Quando usada como uma calculadora gigante com muito armazenamento, uma planilha realmente se destaca.

  • A boa EDA, usando métodos robustos e resistentes, não é fácil, mas depois de fazer uma vez, você pode configurá-la novamente rapidamente. Com o Excel, você pode reproduzir efetivamente todos os cálculos (embora apenas alguns dos gráficos) no livro EDA de Tukey, incluindo o polimento médio das tabelas n-way (embora seja um pouco complicado).

Em resposta direta à pergunta original, há um viés nesse artigo: ele se concentra no material em que o Excel é mais fraco e que é menos provável que um estatístico competente use. Isso não é uma crítica ao jornal, no entanto, porque avisos como esse precisam ser transmitidos.


7
@whuber Uma visão geral agradável e prática de prós e contras!
chl

4
+1 agradável e equilibrado. Eu gosto especialmente do ponto sobre "imediatismo da interação direta", que eu acho que é o maior ponto de venda do Excel (ou realmente a planilha). Programação declarativa para as massas - o que explica por que algumas pessoas pensam que 80% da lógica de negócios do mundo é escrita em Excel (vale a pena apontar para programadores e estatísticos que discutem sobre R v SAS ou Java v C ++, etc).
Ars #

2
Ouvi dizer que a Microsoft contratou alguns analistas numéricos há vários anos para corrigir as funções quebradas no Excel. Você sabe se os problemas com o Excel ainda existem nas versões de 2007 ou 2010?
John D. Cook

2
@Zach Por exemplo, usando o Excel 2002, calcule =TINV(2*p,df)valores de p que variam de 0,01 até quase 0 e compare-os com os valores corretos. (Verifiquei com df variando de 2 a 32.) Os erros começam na sexta figura significativa e depois explodem quando p é em torno de 1.E-5 ou inferior. Embora esses valores de p sejam pequenos, são valores realistas a serem testados porque são cruciais para testes de comparações múltiplas e para calcular valores relacionados à distribuição t, como o não central.
whuber

2
Acho que seu primeiro ponto precisa ter estrelas e flechas chamando a atenção. As planilhas não fornecem trilha de auditoria, o que é fundamental se você pretende fazer um trabalho em que alguém realmente confia. R, por outro lado, não fornece diretamente uma trilha de auditoria, mas, uma vez que aceita comandos e você pode salvar os comandos para importar, pré-processar, processar, representar graficamente, etc., em um arquivo separado, você pode ter uma trilha do que fez para obtenha o Gráfico 1 e você poderá recriá-lo do zero, caso tenha repentinamente motivos para questioná-lo.
30712 Wayne

18

Um artigo interessante sobre o uso do Excel em uma configuração de Bioinformática é:

Identificadores equivocados: erros de nome genético podem ser introduzidos inadvertidamente ao usar o Excel em bioinformática, BMC Bioinformatics, 2004 ( link ).

Este breve artigo descreve o problema de conversões de tipo automáticas no Excel (em particular conversões de data e ponto flutuante). Por exemplo, o nome do gene Sept2 é convertido em 2-Sept. Você pode realmente encontrar esse erro em bancos de dados online .

Usar o Excel para gerenciar grandes e médias quantidades de dados é perigoso. Os erros podem facilmente aparecer sem que o usuário perceba.


6
Este é de longe o aspecto do Excel que mais me enfurece. O armazenamento de dados precisa de tipos de dados explícitos, não de formatação.
Matt Parker

3
Na verdade, isso é algo sobre o software da MS em geral que me incomoda: muda sua opinião para o que acredita que você realmente quis dizer, e você geralmente nem vê isso acontecendo.
Carlos Accioly

@csgillespie (+1) É bom saber sobre o Excel dessa perspectiva!
chl

6
Meu erro favorito ocorreu quando o Excel costumava truncar campos silenciosamente durante a exportação para outros formatos. Em um arquivo de concentrações de pesticidas no solo, ele converteu um valor de 1.000.050 (extraordinariamente tóxico) para 50 (quase inconseqüente) cortando o dígito inicial!
whuber

@ Mat é apenas irritante se você estiver "armazenando" dados no Excel. É um ótimo recurso ao usar o Excel apenas como um front end para criação de relatórios e gráficos.
Tipo anônimo

11

Bem, a questão de saber se o artigo está correto ou tendencioso deve ser fácil: você pode apenas replicar algumas de suas análises e ver se obtém as mesmas respostas.

McCullough vem desmembrando versões diferentes do MS Excel há alguns anos e, aparentemente, a MS não achou adequado corrigir os erros que ele apontou anos atrás nas versões anteriores.

Não vejo problema em brincar com dados no Excel. Mas, para ser sincero, eu não faria minhas análises "sérias" no Excel. Meu principal problema não seria imprecisão (o que acho que raramente será um problema), mas a impossibilidade de rastrear e replicar minhas análises um ano depois, quando um revisor ou meu chefe perguntarem por que eu não fiz o X - você pode salvar o seu trabalhe e seus becos sem saída no código R comentado, mas não de maneira significativa no Excel.


2
(+1) Você está ecoando bem a discussão no Medstats sobre a necessidade de manter um registro da edição e análise de dados ( j.mp/dAyGGY )! Valeu.
chl

Salvar o seu "trabalho e becos sem saída" não é mais difícil de fazer com o Excel do que com o R. É apenas uma questão de fazê-lo. O principal problema do Excel está relacionado à sua força: é muito fácil alterar algo inadvertidamente. Mas para a EDA - o foco do OP - raramente salvamos tudo o que fazemos. Afinal, a EDA deve ser interativa.
whuber

11
é possível manter um registro reproduzível de seus métodos se você o fizer no VB, mas o foco da GUI do Excel não incentiva esse comportamento.
James

7

Incidentalmente, uma pergunta sobre o uso de planilhas do Google levantou opiniões contrastantes (por isso, interessantes) sobre isso: alguns de vocês usam a planilha do Google Docs para conduzir e compartilhar seu trabalho estatístico com outras pessoas?

Eu tenho em mente um artigo mais antigo que não parecia tão pessimista, mas é apenas citado marginalmente no artigo que você mencionou: Keeling e Pavur, um estudo comparativo da confiabilidade de nove pacotes de software estatístico (CSDA 2007 51: 3811). Mas agora, encontrei o seu no meu disco rígido. Também houve uma edição especial em 2008, consulte a seção Especial no Microsoft Excel 2007 e, mais recentemente, no Journal of Statistical Software: Sobre a precisão numérica de planilhas .

Eu acho que é um debate de longa data, e você encontrará vários artigos / opiniões sobre a confiabilidade do Excel para computação estatística. Eu acho que existem diferentes níveis de discussão (que tipo de análise você planeja fazer, você confia no solucionador interno, existem termos não lineares que entram em um determinado modelo etc.) e podem surgir fontes de imprecisão numérica como resultado de erros de computação adequados ou problemas de escolhas de design ; isso está bem resumido em

M. Altman, J. Gill e MP McDonald, Questões Numéricas em Computação Estatística para o Cientista Social , Wiley, 2004.

Agora, para análise exploratória de dados, existem várias alternativas que fornecem recursos aprimorados de visualização, gráficos multivariados e dinâmicos, por exemplo, GGobi - mas consulte tópicos relacionados neste wiki.

Mas, claramente, o primeiro ponto que você mencionou aborda outro problema (IMO): o uso de uma planilha para lidar com grandes conjuntos de dados: simplesmente não é possível importar um grande arquivo csv para o Excel (estou pensando em dados genômicos, mas se aplica a outro tipo de dados de alta dimensão). Não foi construído para esse fim.


Gosto da nuance sobre "diferentes níveis de discussão".
whuber

7

Os trabalhos e outros participantes apontam para fragilidades técnicas. Whuber faz um bom trabalho ao descrever pelo menos alguns de seus pontos fortes. Pessoalmente, faço um extenso trabalho estatístico no Excel (teste de hipóteses, regressões lineares e múltiplas) e adoro isso. Uso o Excel 2003 com uma capacidade de 256 colunas e 65.000 linhas, que podem lidar com quase 100% dos conjuntos de dados que uso. Entendo que o Excel 2007 estendeu essa capacidade em uma quantidade enorme (linhas na casa dos milhões).

Como Whuber menciona, o Excel também serve como uma plataforma inicial para uma infinidade de softwares de complementos bastante impressionantes, todos poderosos e fáceis de usar. Estou pensando em Crystal Ball e @Risk para Monte Carlo Simulation; XLStat para todas as estatísticas poderosas e análise de dados; O que é melhor para otimização. E a lista continua. É como se o Excel fosse o equivalente a um iPod ou iPad com um zilhão de aplicativos bastante incríveis. Concedido que os aplicativos do Excel não são baratos. Mas, pelo que eles são capazes de fazer, normalmente são ótimas pechinchas.

No que diz respeito à documentação do modelo, é tão fácil inserir uma caixa de texto onde você pode literalmente escrever um livro sobre sua metodologia, suas fontes, etc ... Você também pode inserir comentários em qualquer célula. Portanto, se alguma coisa, o Excel é realmente bom para facilitar a documentação incorporada.


11
Obrigado pelos pontos adicionais e por compartilhar sua perspectiva.
whuber

ótimos pontos, é bom ouvir alguém usá-lo da maneira certa e se beneficiar.
Tipo anônimo

6

O Excel não é bom para estatísticas, mas pode ser maravilhoso para a análise exploratória de dados. Dê uma olhada neste vídeo para algumas técnicas particularmente interessantes. A capacidade do Excel de colorir condicionalmente seus dados e adicionar gráficos de barras na célula pode fornecer uma excelente visão da estrutura dos dados brutos.


6

Outra boa fonte de referência sobre por que você pode não querer usar o Excel é:

Dependência da planilha

Se você se encontrar em uma situação em que realmente precisa usar o Excel (alguns departamentos acadêmicos insistem), sugiro usar o plug-in Rexcel . Isso permite que você faça interface usando o Excel, mas usa o programa R como o mecanismo computacional. Você não precisa conhecer o R ​​para usá-lo, pode usar menus e caixas de diálogo suspensos, mas pode fazer muito mais se o fizer. Como R está fazendo os cálculos, eles são muito mais confiáveis ​​do que o Excel e você tem gráficos e boxplots muito melhores e outros gráficos ausentes no Excel. Até funciona com a atualização automática de células no excel (embora isso possa tornar as coisas muito lentas se você tiver muitas análises complexas para recalcular toda vez). Ele não resolve todos os problemas da página de dependência de planilhas, mas é uma grande melhoria em relação ao uso do straight straight.


1

O Excel pode ser excelente tanto para análise exploratória de dados quanto para análise de regressão linear com os plugins corretos. Existem vários produtos comerciais, embora muitos deles deixem algo a desejar em termos de qualidade da saída que produzem (eles não aproveitam ao máximo as opções de gráficos do Excel ou a capacidade de vincular-se a outros aplicativos do Office) e em geral, eles não são tão bons quanto poderiam ser para visualização e apresentação de dados. Eles também tendem a não suportar uma abordagem de modelagem disciplinada na qual (entre outras coisas) você mantém uma trilha de auditoria bem documentada para o seu trabalho. Aqui está um plugin GRATUITO, "RegressIt", que aborda muitos desses problemas: http://regressit.com. Ele fornece um suporte muito bom para a análise exploratória (incluindo a capacidade de gerar gráficos de séries temporais paralelas e matrizes de gráficos de dispersão com até 50 variáveis), facilita a aplicação de transformações de dados, como atraso, registro e diferenciação (que geralmente não são aplicadas apropriadamente por usuários ingênuos de regressão), fornece resultados de tabelas e gráficos muito detalhados que suportam as melhores práticas de análise de dados e mantém uma planilha de trilha de auditoria que facilita as comparações de modelos lado a lado, além de manter um registro de quais modelos foram montados em que ordem. É um bom complemento para o que mais você estiver usando, se estiver lidando com dados multivariados e pelo menos parte do seu trabalho estiver sendo realizada em um ambiente do Excel.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.