Edit III: Encontrei um exemplo imensamente maravilhoso de visualização quantitativa multivariável de dados e precisei adicioná-lo. Você o encontrará sob o título "Edit III (Prêmios Nobel)".
Editar II: houve um pequeno mal-entendido e editei para tentar esclarecer como interpreto o uso pretendido dos dados. Troquei duas imagens e adicionei uma seção "Você quer batatas fritas com isso?"
Os gráficos revelam dados.
Edward Tufte:
Desordem e confusão são falhas de design, não atributos de informação. A desorganização exige uma solução de design, não redução de conteúdo. Muitas vezes, quanto mais intenso o detalhe, maior clareza e compreensão, porque o significado e o raciocínio são implacavelmente CONTEXTUAIS. Menos é um furo.
Por que visualizamos dados?
- Ferramentas para pensar
- Para mostrar o resultado de uma intensa visão
- Para entender um problema, tomar uma decisão
- Mostrar comparações, mostrar causalidade
- Forneça razões para acreditar
Quão?
- mostre os dados
- induzir o espectador a pensar sobre a substância em vez de sobre metodologia, design gráfico, a tecnologia de produção gráfica ou algo mais
- evite distorcer o que os dados têm a dizer
- apresentar muitos números em um espaço pequeno
- Tornar coerentes conjuntos de dados grandes
- incentivar os olhos a comparar diferentes dados
- revele os dados em vários níveis de detalhe, de uma visão geral ampla à estrutura fina.
- servir a um propósito razoavelmente claro: descrição, exploração, tabulação ou decoração.
- estar intimamente integrado às descrições estatísticas e verbais de um conjunto de dados.
Algumas definições:
Dados:
é geralmente considerado como "material classificado nos bancos de dados". É claro que isso pode ser números, imagens, som, vídeo etc. Dados são o que é colecionável, geralmente quantitativo. Na sua forma mais crua, é difícil de digerir; apenas paredes de dígitos. Você sabe; a matriz . De um modo geral, não temos bancos de dados maciços que consistem em zeros, para todas as coisas que não temos, mesmo que às vezes as coisas que não temos sejam as mais informativas . Então, para ver o que não temos, precisamos visualizar o que nós não temos.
Em formação:
é o que você pode extrair dos dados . Ao exibir dados de alguma forma, podemos coletar informações . Um dos exemplos que costumo usar é que, se eu lhe der uma lista dos países do mundo e lhe disser que faltam dois, é altamente improvável que você os encontre com base nessa lista. No entanto, se eu exibir isso colorindo todos os países que tenho em um mapa, você verá instantaneamente que omiti a República Centro-Africana e a Nova Caledônia. Isso é "reduzir o ruído" e contar uma história da maneira mais eficaz possível.
Visualização de infográficos e dados:
Hesito em chamar seu exemplo de infografia. Sei que isso costuma ser visto como sinônimo de visualização de dados, design de informações ou arquitetura de informações, mas discordo. Infográficos - para mim - são uma série de gráficos, diagramas e ilustrações que podem muito bem conter várias declarações tendenciosas sobre como ler os dados. É menos objetivo, mais propenso a pular dados que não são do "interesse" do criador: você é guiado para uma conclusão que alguém predefiniu. Eles têm valor de entretenimento e costumam ter um uso avassalador de ilustrações que retiram algum foco dos dados. Isso é bom, mas acho que devemos nos diferenciar um pouco.
Exemplos
Big data:
Lembre-se de que big data não é o mesmo que dados complexos. Muitos dados podem ser iguais, como este mapa do LinkedIn: os dados principais são os mesmos, mas existem filtros (por marcação). Existem duas variáveis: geografia e algum tipo de tag que define as pessoas em profissões / interesses / relações. Quantidade insana de dados; mas apenas duas variáveis.
Multivariável:
Aqui está um exemplo de visualização multivariável de dados. Este é o gráfico de Charles Minard de 1869 que mostra o número de homens no exército de campanha russa de Napoleão em 1812, seus movimentos e a temperatura que encontraram no caminho de retorno.
Grande versão aqui.
Demora um pouco para decifrar o código, mas quando você faz isso é esplêndido. As variáveis cobertas são:
- tamanho do exército (número de vivos / mortos)
- localização geográfica
- direção (leste - oeste)
- temperatura
- hora (datas)
- causação (morreu em batalhas e de frio)
Essa é uma quantidade incrível de informações em um mapa simples de duas cores. A parte geográfica é estilizada para dar espaço a outras variáveis, mas não temos problemas em obtê-la.
Aqui está um mais complicado. Será muito mais fácil ler se você estiver familiarizado com visualizações evolutivas básicas, cladogramas, filogenia e princípios da biogeografia. Lembre-se de que é feito para pessoas familiarizadas com isso, por isso é um gráfico científico especializado. Aqui está o que mostra: Uma imagem filogeográfica de linhagens de sapos venenosos da América do Sul. Os mapas à esquerda mostram as principais regiões biogeográficas à medida que mudam com o tempo e a imagem à direita mostra as linhagens de sapos no contexto de suas origens biogeográficas. (Por Santos JC, Coloma LA, Summers K, Caldwell JP, Ree R, et al. [CC-BY-SA-2.5 (www.creativecommons.org/licenses/by-sa/2.5)], via Wikimedia Commons). Quando você "decifra o código", ele é extremamente informativo.
Pequenos múltiplos, linhas de faísca:
Não posso enfatizar isso o suficiente: nunca subestime o valor de repetir informações ou dividi-las em visualizações idênticas separadas. Desde que seja razoavelmente fácil comparar um gráfico com outro, isso é perfeitamente aceitável. Somos máquinas de encontrar padrões. Isso geralmente é chamado de múltiplos pequenos. Temos poucos problemas ao analisar essas imagens rapidamente, e amontoar tudo em um gráfico grande geralmente não faz sentido quando dez pequenos funcionam ainda melhor:
Outro:
E um que usa gráficos diferentes, mas repetidos:
Sparklines são um termo cunhado por Edward Tufte e também desenvolvido em uma
biblioteca javascript totalmente funcional e totalmente personalizável. São basicamente pequenos gráficos que podem ser inseridos no texto, como parte do texto e não como um objeto "externo". Aqui está a aparência do padrão:
Edit III (Prêmios Nobel)
Eu apenas tive que adicionar essa visualização de dados que encontrei, é simplesmente muito boa: mostra os ganhadores do Nobel. Qual universidade, qual faculdade, assunto, ano, idade, cidade natal, onde foi compartilhada, nível de graduação. Bela evidência de fato. Todos esses são dados quantificáveis. Mais aqui.
Seus dados
Todas as perguntas que o @Javi coloca são extremamente importantes.
O que você está tentando fazer é criar uma ferramenta visual para pensar. Para fazer isso, você deve extrair a melhor qualidade da relação sinal / ruído. O que você está enfrentando é como correlacionar dados com variáveis diferentes em informações . Aqui está uma pergunta: o que precisa estar aproximadamente certo e o que precisa estar exatamente certo? Qual é o objetivo?
Eu vou assumir que você deseja exibir os dados sem muito viés: você quer que o leitor encontre correlações, se houver alguma correlação. Seu objetivo não é dizer às pessoas que os hambúrgueres são ruins para elas ou que as mulheres comem menos que os homens, mas deixá-las "vê-las", se é isso que os dados contêm (imagine se essas três pessoas fossem uma família. balançar nossa visão sobre o gráfico de comer hambúrguer um pouco).
Seu conjunto de dados é tão pequeno que você pode simplesmente colocá-lo em uma tabela e tudo bem. Mas é claro que isso é sobre a idéia geral:
Um pequeno detalhe: o tempo (idade) tende a ser algo que vemos horizontal da esquerda para a direita (linhas do tempo). Pese algo que esteja de cima para baixo; portanto, mudar seu x - y seria uma boa idéia.
1. Quais são as entidades fixas únicas?
2. quais são as variáveis variáveis (eh ..)?
- Peso (kg)
- Idades (anos)
- Número de hambúrgueres (inteiro)
- Tipo de hambúrgueres (inteiro)
Nota: seus dados consistem inteiramente em unidades. Contável, quantificável, cada um em uma escala mental separada. Quilo, idade, peso e números. E no banco de dados, seus nomes são as chaves. Quando você começa a fazer visualizações no espaço-tempo, isso se torna uma verdadeira dor de cabeça. Imagine que você deve adicionar o local de nascimento, a casa atual etc.
Os únicos dois aqui que têm correlação é o número de hambúrgueres e se é ou não uma combinação. Todas as outras variáveis são independentes e apenas uma é fixa (nome). Em algum momento, com grandes conjuntos de dados, até os nomes se tornam desinteressantes e são substituídos por dados demográficos, idade, sexo ou algo semelhante.
Com esse minúsculo conjunto de dados, você pode obter tudo em um gráfico, por exemplo:
Ou você pode alterar o conteúdo do eixo e do balão de nome:
Nota pessoal: Eu acho que isso é o melhor dos dois, porque xey contêm propriedades "físicas" de um ser humano. A variável nas bolhas aqui é o número de hambúrgueres.
Você também pode adicionar gráficos de pizza além do gráfico, ou mesmo ter apenas gráficos de pizza. Pessoalmente, eu teria ambos, como mencionado sobre pequenos múltiplos:
Você quer batata frita com o que?
Minha suposição era que também queríamos saber a proporção de hambúrguer por refeição. Toda refeição contém um hambúrguer. Nem todas as refeições são combinadas.
- queremos apenas saber se uma pessoa às vezes come alimentos combinados?
- ou queremos saber quantas refeições de hambúrguer também são combinadas?
Se 1., um booleano aplicado ao nome / chave / id faria.
Jane às vezes come combomeals? Verdadeiro falso.
Se 2., poderíamos aplicar um booleano a cada refeição:
1 cheeseburger, combomeal = true
1 cheeseburger, combomeal = true
1 cheeseburger, combomeal = false
1 cheeseburger, combomeal = false
1 cheeseburger, combomeal = false
1 cheeseburger, combomeal = false
1 cheeseburger, combomeal = false
1 hambúrguer de carne, combomeal = true
1 hambúrguer de carne, combomeal = true
1 hambúrguer de carne, combomeal = false
Isso é muito tedioso, para que pudéssemos dividir em:
Jane come 10 hambúrgueres. Destes, três são combos ("você quer batatas fritas com isso?").
Um dos combomeals é um menu de hambúrgueres.
Dois dos combomeals são menu de cheeseburger.
O resto são hambúrgueres individuais. 5 queijos, duas carnes.
Esse gráfico foi uma tentativa de visualizar isso. Eu mantive nesta versão as fatias de torta para torná-la mais clara. O importante é que não seria um salto começar a aplicar grandes conjuntos de dados e%:
Mas acho que a melhor maneira é repensar.
Outra maneira de olhar para isso é fazê-lo realmente muito simples. Aqui é mais fácil ver quais faixas etárias, quais faixas de peso e todos os dados que você "não possui" podem nos dizer. Os dados que você possui não são relacionados ao espaço, são apenas unidades (kg, anos, números + chave / id / nome):
(Editar: Ovo na minha cara: Eu substituí essas imagens por outras mais corretas, quanto ao "todas as refeições são hambúrgueres, nem todas as refeições são combinadas")
Isso seria muito fácil de expandir com mais pessoas:
Ou, melhor ainda, se você comparar faixas etárias de 10, 20 e 30 anos, você pode simplificar bastante a visualização estatística:
..E apenas para ser o mais claro possível; Aqui está um exemplo dessa maneira de pensar. Este gráfico mostra os sobreviventes do Titanic, proporção de tripulação, classe, homens, mulheres.
Haverá muitas outras soluções, estas são apenas algumas reflexões.
Eu poderia continuar, mas agora eu me exaurei e provavelmente todo mundo.
Ferramentas para brincar:
gephi
Gapminder Veja esta
apresentação fenomenal do TED de Hans Rosling - ame aquele cara
Gráficos do Google
somvis
Raphaël
Exposição do MIT (anteriormente chamada Similie)
d3
Highcharts
Leitura adicional:
PJ Onori; Em defesa do duro
Edward Tufte: Belas evidências
Edward Tufte: visualizando informações
Edward Tufte: A exibição visual de informações quantitativas
Explicações visuais: Imagens e Quantidades, Evidências e Narrativas
Masculino, Alan., 2007 Ilustração: uma perspectiva teórica e contextual Lausanne, Suíça; Nova York, NY: AVA Academia
Ilhas, C. & Roberts, R., 1997. Na luz visível, fotografia e classificação em arte, ciência e no cotidiano, Museu de arte moderna de Oxford.
Card, SK, Mackinlay, J. & Shneiderman, B. eds., 1999. Leituras em Visualização da Informação: Using Vision to Think 1ª ed., Morgan Kaufmann.
Grafton, A. & Rosenberg, D., 2010. Cartografias do Tempo: Uma História da Linha do Tempo, Princeton Architectural Press.
Lima, M., 2011. Complexidade Visual: Mapeamento de Padrões de Informação, Princeton Architectural Press.
Bounford, T., 2000. Diagramas digitais: como projetar e apresentar informações estatísticas efetivamente 0 ed., Watson-Guptill.
Steele, J. & Iliinsky, N. eds., 2010. Visualização bonita: olhando dados através dos olhos dos especialistas 1ª ed., O'Reilly Media.
Gleick, J., 2011. As informações: uma história, uma teoria, um dilúvio, panteão