Quais práticas recomendadas devo seguir ao preparar gráficos?

40

Normalmente, faço minhas próprias escolhas idiossincráticas ao preparar parcelas. No entanto, gostaria de saber se existem práticas recomendadas para gerar plotagens.

Nota: O comentário de Rob para uma resposta a esta pergunta é muito relevante aqui.

data-visualization references

— usuário28
fonte

23

Os princípios do Tufte são práticas muito boas ao preparar parcelas. Veja também o livro Beautiful Evidence

Os princípios incluem:

Mantenha uma alta taxa de tinta de dados
Remover lixo eletrônico do gráfico
Atribuir várias funções ao elemento gráfico
Lembre-se da densidade de dados

O termo a ser pesquisado é Visualização da Informação

— Peter Smit
fonte

4

A exibição visual de informações quantitativas da Tufte ( amazon.com/o/ASIN/0961392142/ref=nosim/gettgenedone-20 ) é melhor que a Beautiful Evidence IMO. Todos os quatro livros dele são bons, e se você tiver a oportunidade de participar de um de seus cursos, faça-o.

— Stephen Turner

5

Concordo com a maior parte do que Tufte diz, mas devo dizer, com poucos dados: os gráficos de caixas de tinta são simplesmente idiotas. Eu acho que eles demoram 3-4 vezes mais para descobrir do que os boxplots padrão. Os padrões R são muito melhores (embora as linhas nas extremidades das caudas sejam desnecessárias). Boxplots tradicionais têm a vantagem adicional de poderem representar o tamanho da amostra (com largura) e desvios padrão (com entalhes).

— precisa saber é o seguinte

2

+1 @ naught101 alguns outros compartilham esta opinião sobre a SO: stackoverflow.com/questions/6973394/...

— Ben

15

Poderíamos ficar aqui o dia inteiro, denotando as melhores práticas, mas você deve começar lendo o Tufte. Minha recomendação principal:

Mantenha simples.

Muitas vezes, as pessoas tentam carregar seus gráficos com informações. Mas você realmente deve ter apenas uma idéia principal que está tentando transmitir e, se alguém não receber sua mensagem quase imediatamente, deve repensar como a apresentou. Portanto, não comece a trabalhar no seu gráfico até que a mensagem em si seja clara. A navalha de Occam também se aplica aqui.

— Shane
fonte

11

Eu concordo com a maior parte deste ponto, mas acho que "mantenha as coisas simples". pode não ser claro. Seu ponto principal é que você deve saber o que deseja que o gráfico transmita. "Mantenha simples." traz outras idéias, como "A proporção de dados: tinta deve ser alta", incentivada pela Tufte e "Apresente não mais do que três variáveis".

— Thomas Levine

Claramente, esse conselho é imensamente melhor que o contrário. Mas há situações em que um gráfico é necessariamente complicado e requer um estudo detalhado, cuidadoso e ponderado. Mas a complicação deve ser a mais simples possível. Por exemplo, 25 gráficos em uma matriz 5 x 5 podem precisar de estudo prolongado, mas a ideia de que cada um mostra apenas alguns dados é relativamente fácil de entender.

— Nick Cox

12

Uma regra prática que nem sempre sigo, mas que é útil em algumas ocasiões, é levar em consideração que é provável que sua trama em algum momento no futuro seja

enviado por fax,
fotocopiado e / ou
reproduzida em preto e branco.

Você precisa tentar tornar suas plotagens claras o suficiente para que, mesmo que elas sejam imprecisas no futuro, as informações que a trama está tentando transmitir ainda sejam legíveis.

— Thomas Levine
fonte

14

Eu acho que você quer dizer enviado por fax em algum momento no passado ;)

— Hadley

+1 para isso. Seu enredo seminal, o coração do seu trabalho, não deve ser totalmente ininteligível porque eu o imprimi.

— fomite

esta resposta aborda um problema semelhante.

— precisa saber é o seguinte

8

Além de transmitir uma mensagem clara, sempre tento me lembrar da conspiração:

os tamanhos de fonte para rótulos e legendas devem ser grandes o suficiente, de preferência o mesmo tamanho e fonte usados na publicação final.
as larguras de linha devem ser grandes o suficiente (as linhas de 1 pt tendem a desaparecer se as plotagens forem encolhidas apenas um pouco). Eu tento ir para larguras de linha de 3 a 5 pt.
se plotar vários conjuntos de dados / curvas com cores, verifique se eles podem ser entendidos se impressos em preto e branco, por exemplo, usando símbolos ou estilos de linha diferentes, além da cor.
use sempre um formato sem perdas (ou quase sem perdas), por exemplo, um formato vetorial como pdf, ps ou svg ou png ou gif de alta resolução (o jpeg não funciona e nunca foi projetado para arte de linha).
prepare gráficos na proporção final a ser usada na publicação. Alterar a proporção mais tarde pode gerar fontes irritantes ou formas de símbolos.
sempre remova a confusão inútil do programa de plotagem, como informações não utilizadas do histograma, linhas de tendência (pouco úteis) ou títulos padrão.

Eu configurei meu software de plotagem (matplotlib, ROOT ou root2matplotlib) para fazer a maior parte desse direito por padrão. Antes de usar, gnuplotprecisava de cuidados extras aqui.

— Benjamin Bannier
fonte

8

No campo da física, existe uma regra de que todo o artigo / relatório seja compreensível apenas com uma rápida olhada nas parcelas. Por isso, aconselho principalmente que sejam auto-explicativos.
Isso também implica que você deve sempre verificar se o seu público está familiarizado com algum tipo de enredo - eu cometi um grande erro ao supor que todo cientista sabe o que são gráficos de caixa e, em seguida, perdi uma hora para explicá-lo.

— usuário88
fonte

Simpatias na experiência do gráfico de caixas, mas o que isso implica é (a) o uso de uma variante relativamente simples (por exemplo, mostrando mediana, quartis, 5% e 95% pontos e todos os pontos de dados além), em vez de mostrar qualquer coisa com base na convenção centrada em 1,5 IQR; (b) adicionar uma legenda explicitando as convenções.

— Nick Cox

6

Aqui estão minhas diretrizes, com base nos erros mais comuns que vejo (além de todos os outros pontos positivos mencionados)

Use gráficos de dispersão, não gráficos de linhas, se a ordem dos elementos não for relevante.
Ao preparar plotagens que devem ser comparadas, use o mesmo fator de escala para todas elas.
Ainda melhor - encontre uma maneira de combinar os dados em um único gráfico (por exemplo: gráficos de caixas são melhores que vários histogramas para comparar um grande número de distribuições).
Não se esqueça de especificar unidades
Use uma legenda apenas se for necessário - geralmente é mais claro rotular curvas diretamente.
Se você precisar usar uma legenda, mova-a para dentro da plotagem, em uma área em branco.
Para gráficos de linhas, procure uma relação de aspecto que produza linhas aproximadamente 45o com a página .

— Bossykena
fonte

"boxplots são melhores do que vários histogramas para comparar um grande número de distribuições" - isso só é verdade se seus dados são unimodais e não têm curtose ou outros recursos que não podem ser capturados por boxplots.

— nada101

6

Dê uma olhada na biblioteca de gráficos R, ggplot2. Os detalhes estão na página da web http://had.co.nz/ggplot2/ Este pacote gera gráficos padrão muito bons, que seguem os princípios Tufte, as diretrizes de Cleveland e o pacote de cores de Ihaka.

— visnut
fonte

6

Se estiver plotando em cores, considere que as pessoas daltônicas podem ter problemas para distinguir os elementos apenas pela cor. Tão:

Use estilos de linha para distinguir linhas.
Use um peso extra nos elementos, faça uma largura de linha de pelo menos 2 pt, etc.
Use marcadores diferentes e cores para distinguir pontos.
Use etiquetas e anotações, referindo-se também à posição e estilo.
Ao se referir a elementos de plotagem no texto, descreva-os por cor, posição relativa e estilo: "a curva vermelha, superior e pontilhada"
Use uma paleta amigável para daltônicos. Consulte http://www.vischeck.com/vischeck/ , http://jfly.iam.u-tokyo.ac.jp/color/#pallet . Eu tenho uma implementação python simples da paleta na última referência em code.google.com, procure por python-cudtools

— Andrej Panjkov
fonte

Considere também o fato de que alguém pode precisar imprimi-lo em uma impressora em escala de cinza. Eu já fiz isso antes - usei as cores padrão do ggplot2 (que ficam ótimas na tela) para uma tarefa, que depois imprimi em preto e branco, e metade das cores não podia ser distinguida das outras! * corar *

— naught101

4

Essas são sugestões maravilhosas. Reunimos muito material em http://biostat.mc.vanderbilt.edu/StatGraphCourse . Um grupo de estatísticos na indústria farmacêutica, na academia e na FDA também está criando um recurso que será muito útil para ensaios clínicos e pesquisas relacionadas. Muito material novo será revelado em um mês, mas já existe muito - http://www.ctspedia.org/do/view/CTSpedia/PageOneStatGraph

Meu livro gráfico pessoal favorito é Elements of Graphing Data de William Cleveland.

Em termos de software, na minha opinião, é difícil vencer os pacotes ggplot2 e treliça do R. Stata também suporta alguns gráficos excelentes.

— Frank Harrell
fonte

3

Também depende de onde você não deseja publicar seus gráficos. Você economizará muito trabalho consultando o guia dos autores antes de fazer planos para uma revista.

Salve também os gráficos em um formato fácil de modificar ou salve o código que você usou para criá-los. As chances são de que você precise fazer correções.

— Matti Pastell
fonte

3

Não use gráficos de dinamite: http://pablomarin-garcia.blogspot.com/2010/02/why-dynamite-plots-are-bad.html , use gráficos de violino ou similares (família de boxplots)

— Pablo Marin-Garcia
fonte

2

As outras respostas são muito formuladas para serem convincentes, então deixe-me dar uma resposta mais geral. Eu luto com essa questão há um tempo. Eu ofereço este processo:

Conheça a sua mensagem
Conheça o seu público
Conheça suas restrições
Adapte sua mensagem ao seu público, dadas as suas restrições

Sou cético em relação a alegações gerais como "mantenha as coisas simples" - o que isso significa? Bem, isso depende da audiência. Algumas audiências vão adorar o estilo Tufte. Mas algumas audiências apreciam um pouco de lixo de gráficos de vez em quando. Algumas pessoas estão entediadas com gráficos de dispersão. Algumas pessoas gostam de fundos coloridos. É tão errado envolvê-los um pouco, mesmo que você comprometa a pureza "estética"? Cabe a você decidir.

A reação do seu público será um feedback importante, mas não o único. Se você encontrar uma maneira de avaliar o entendimento deles antes e depois da sua apresentação, começará a entender o impacto que causou.

A resposta "correta" dependerá desses tipos de perguntas:

Que mídia você estará usando?
Você está criando gráficos estáticos ou interativos?
Você está tentando contar uma história predefinida (exposição) ou incentivar a experimentação (exploração)?
Até que ponto você deseja que o público tire suas próprias conclusões?
Até que ponto você deseja que o público acompanhe e seja convencido por sua história?
Até que ponto você deseja que o público desafie suas descobertas?

Em resumo, projete seus materiais deliberadamente, de acordo com sua mensagem, público e restrições.

— David J.
fonte

"Envolver-se" ou distrair? A cor pode ser boa, mas você está aqui finalmente sobre dados, e a estética deve servir os dados, e não o contrário.

— precisa saber é o seguinte

2

Parece-me que uma coisa me lembro de Tufte mencionando, que não está nas outras respostas, é o mapeamento - isto é, posição, direção, tamanho etc. no seu gráfico representam a realidade . O que está no gráfico deve estar no mundo real. O que é grande deve ser grande (tendo em mente que as áreas devem representar áreas e volumes de volumes. Nunca tente representar um valor escalar por uma área, é altamente ambíguo!). Isso também se aplica a cores, formas, etc., se forem relevantes.

Um exemplo interessante é o gráfico "saia da série" aqui: http://a-little-book-of-r-for-time-series.readthedocs.org/en/latest/src/timeseries.html . Embora tecnicamente esteja correto e um comprimento de saia "mais alto" ocupe uma posição mais alta no gráfico, na verdade é bastante confuso, porque o comprimento da saia começa do topo e desce (ao contrário dos humanos ou das árvores, onde medimos a altura do chão). Portanto, o aumento do comprimento da saia na verdade representa um valor mais baixo :

skirts <- scan("http://robjhyndman.com/tsdldata/roberts/skirts.dat",skip=5)
skirtsseries <- ts(skirts,start=c(1866))
plot.ts(skirtsseries, ylim=c(max(skirts),min(skirts)))

insira a descrição da imagem aqui

Como sempre, existem dificuldades. Por exemplo, geralmente consideramos o tempo para avançar e, no oeste, pelo menos, lemos da esquerda para a direita, portanto nossos gráficos de séries temporais também costumam fluir da esquerda para a direita à medida que o tempo aumenta. Então, o que acontece se você deseja representar algo que é melhor representado lateralmente (por exemplo, medidas leste-oeste de algo) ao longo do tempo? Nesse caso, você precisa comprometer e retratar o tempo subindo ou descendo (que depende novamente das percepções culturais, eu acho), ou optar por mapear sua variável lateral para cima / baixo no gráfico.

— naught101
fonte

11

Um exemplo da troca de tempo / espaço está no livro Making Maps (discussão crítica e exemplos fornecidos aqui .

— Andy W

Bom exemplo (horrível)! Os mapas trazem outra troca mais difícil: tentar representar 2 dimensões + tempo em uma página bidimensional (por exemplo, mapas de deriva continental). Bastante difícil. Mas acho que é para isso que servem as animações :)

— naught101

Seu exemplo revelador permite mencionar dois pontos extras que frequentemente surgem. 1. Com um eixo temporal, um título ou rótulo como "TIme" geralmente é redundante. 2. Títulos ou etiquetas como "skirtseries" sempre podem ser aprimorados com uma explicação concisa mas informativa, incluindo unidades de medida, quando apropriado.

— Nick Cox

1

Depende da maneira como as parcelas serão discutidas.

Por exemplo, se estou enviando parcelas para uma reunião de grupo que será realizada com pessoas de diferentes locais, prefiro reuni-las no Powerpoint, em vez de no Excel, para facilitar a alternância.

Para chamadas técnicas individuais, colocarei algo no excel para que o cliente possa mover um gráfico de lado e visualizar os dados brutos. Ou posso inserir valores p nas células ao longo dos coeficientes de regressão lateral, por exemplo

Lembre-se: os lotes são baratos, especialmente para uma apresentação de slides ou por e-mail para um grupo. Eu prefiro fazer 10 gráficos claros que podemos percorrer do que 5 gráficos onde tento colocar coortes distintas (por exemplo, "machos e fêmeas") no mesmo gráfico.

— Baltimark
fonte

1

Eu acrescentaria que a escolha do gráfico deve refletir o tipo de teste estatístico usado para analisar os dados. Em outras palavras, quaisquer que sejam as características dos dados usadas para análise devem ser mostradas visualmente - para que você mostre erros médios e padrão se você usou um teste t, mas boxplots se você usou um teste de Mann-Whitney.

— Freya Harrison
fonte