Como visualizar melhor as diferenças em muitas proporções em três grupos?

18

Estou tentando comparar visualmente como três publicações de notícias diferentes cobrem tópicos diferentes (determinado por meio de um modelo de tópico da LDA). Eu tenho dois métodos relacionados para fazer isso, mas recebi muitos comentários de colegas de que isso não é muito intuitivo. Espero que alguém tenha uma idéia melhor para visualizar isso.

No primeiro gráfico, mostro as proporções de cada tópico em cada publicação, da seguinte forma:

Proporções para todos os tópicos e publicações

Isso é bem direto e intuitivo para quase todo mundo com quem conversei. No entanto, é difícil ver as diferenças entre as publicações. Qual jornal aborda mais qual tópico?

Para chegar a isso, fiz um gráfico da diferença entre a publicação com a maior e a segunda maior proporção de tópicos, colorida pela publicação com a mais alta. Como isso:

Diferença entre o primeiro e o segundo tópicos mais altos

Portanto, a enorme barra de futebol, por exemplo, é realmente a distância entre o al-Ahram English e o Daily News Egypt (# 2 na cobertura de futebol), e é vermelho porque Al-Ahram é o número 1. Da mesma forma, os testes são verdes porque o Egypt Independent tem a maior proporção e o tamanho da barra é a distância entre o Egypt Independent e o Daily News Egypt (# 2 novamente).

O fato de eu ter que explicar que tudo isso em dois parágrafos é um sinal bastante claro de que o gráfico falha no teste de auto-suficiência. É difícil dizer o que realmente está acontecendo apenas olhando para ele.

Alguma sugestão geral sobre como destacar visualmente a publicação dominante para cada tópico de uma maneira mais intuitiva?

Edit: Dados para jogar: Aqui está a dputsaída do R , bem como um arquivo CSV .

Edit 2: Aqui está uma versão preliminar do gráfico de pontos, com os diâmetros dos pontos proporcionais à proporção do tópico no corpus (que é como os tópicos foram originalmente classificados). Embora eu ainda precise ajustá-lo um pouco mais, parece muito mais intuitivo do que o que estava fazendo antes. Obrigado a todos!

Gráfico de pontos

data-visualization communication

— Andrew
fonte

1

Acabei de adicionar alguns dados (para R e CSV). Eu não terminei escolhendo boas cores ainda (daí o Christmasy vermelho / verde), embora eu estou ciente das questões de cor cegos :)

— Andrew

1

A menção de "proporções" é um pouco complicada aqui, já que os dados não são realmente proporções e, o que é mais importante, nenhuma das soluções gráficas até agora depende dos dados serem proporções. Isso é bom porque as soluções têm relevância para uma ampla gama de dados, mas não sejam enganadas.

— Nick Cox

(+1) Boa pergunta, incluindo conjunto de dados para download e acompanhamento rápido!

— chl

Andrew, em relação à sua edição mais recente, acho que seria melhor com as linhas de grade verticais. Eles criam um padrão de verificador, mas não agregam muito valor, supondo que você não se importe em ler valores precisos no gráfico.

— xan

Sem as linhas verticais?

— Andrew

18

Obrigado por tornar os dados acessíveis e por um conjunto de dados interessante e um desafio gráfico.

Minha principal sugestão é de um gráfico de pontos (Cleveland).

insira a descrição da imagem aqui

Os detalhes mais importantes que eu gostaria de enfatizar:

A sobreposição aqui permite e facilita a comparação.
A ordem dos tópicos em suas telas parece bastante arbitrária. Na ausência de uma ordem natural (por exemplo, tempo, espaço, uma variável ordenada), eu sempre selecionava uma das variáveis para fornecer uma estrutura. Qual usar pode ser uma questão de se é particularmente interessante ou importante, a decisão de um pesquisador. Outra possibilidade é ordenar, de certa forma, as diferenças entre os artigos, para que os tópicos que recebem cobertura semelhante estejam em uma extremidade e os que estejam recebendo cobertura diferente na outra extremidade.
Marcadores abertos ou símbolos de pontos permitem que a sobreposição ou identidade seja resolvida melhor do que os marcadores ou símbolos fechados ou sólidos, que nos piores casos se obscurecem ou se obstruem. (Uma alternativa que pode funcionar muito bem aqui são cartas como A, D e I para os três jornais.)

Claramente, há muito espaço para melhorar meu design. Por exemplo, as letras são muito grandes e / ou muito pesadas? Por outro lado, os títulos devem ser facilmente legíveis, caso contrário, o gráfico é uma falha.

Alguns pontos menores e mais exigentes:

uma. Vermelho e verde no seu gráfico é uma combinação de cores a ser evitada. Quando marcadores diferentes são usados, as opções de cores são um pouco menos cruciais.

b. Os ticks horizontais no seu gráfico são perturbadores. Por outro lado, são necessárias linhas de grade nas minhas, mas tento torná-las discretas usando linhas finas e leves.

$\times$

Os gráficos de pontos de Cleveland devem mais a

Cleveland, WS 1984. Métodos gráficos para apresentação de dados: quebras de escala completa, gráficos de pontos e registro em várias bases. American Statistician 38: 270-80.

Cleveland, WS 1985. Elementos de representação gráfica de dados. Monterey, CA: Wadsworth.

Cleveland, WS 1994. Elementos dos dados gráficos. Summit, NJ: Hobart Press.

Um precursor (mais famoso estatisticamente por trabalhos bastante diferentes !!!) foi

Pearson, ES 1956. Alguns aspectos da geometria da estatística: o uso da apresentação visual na compreensão da teoria e aplicação da estatística matemática. Jornal da Sociedade Estatística Real A 119: 125-146.

Para os interessados, o gráfico foi preparado em Stata após a leitura no arquivo .csv com o código

graph dot (asis) prop , over(pub) over(label, sort(1)) asyvars 
marker(1, ms(Oh)) marker(2, ms(+)) marker(3, ms(Th)) linetype(line)   
lines(lc(gs12) lw(vthin)) scheme(s1color)

— Nick Cox
fonte

Isso é incrível - obrigado! Infelizmente, as porcentagens não somam nada, porque os valores são meios padronizados de um grande corpus de documentos (ou seja, todo documento em cada publicação consiste em uma combinação dos 20 tópicos descobertos pela LDA - isso mostra os meios normalizados. números pequenos)

— Andrew

Além disso, os tópicos são ordenados por proporção no corpus. A governança no Egito é o tópico que mais aparece, enquanto diversos é o tópico mais raro. Mas usar essa ordem aqui torna os pontos / símbolos um pouco mais difíceis de seguir visualmente.

— Andrew Andrew

Isso é ótimo! Obrigado! Atualizei a postagem original para refletir suas sugestões e adicionar proporções de corpus.

— 14133 Andrew

(+6) Boa resposta! E é sempre bom ter referências e código reproduzível.

— chl

@chl Muito obrigado pelos comentários agradecidos e pela reputação extra.

— Nick Cox

14

O gráfico de pontos de Nick Cox é provavelmente o melhor para a imagem completa. Se você realmente deseja enfatizar o primeiro relacionamento com o segundo, aqui está uma modificação no seu gráfico que compensa a barra de diferença com o comprimento da segunda barra.

insira a descrição da imagem aqui

E para uma visão diferente da imagem grande, você pode tentar algo como um gráfico de inclinação ou um gráfico de coordenadas paralelas. As linhas podem estar um pouco cheias aqui, mas pode funcionar se você quiser destacar um subconjunto dos tópicos.

insira a descrição da imagem aqui

Além disso, você pode tentar o helpmeviz.com, voltado para dados muito específicos, como perguntas como esta.

— xan
fonte

Interessante! Ponto de minuto: o título do eixo ou o rótulo "proporção" não corresponde às unidades de%.

— Nick Cox

Ooh, isso é realmente interessante. Vou brincar com isso para ver se pode complementar o gráfico de pontos.

— Andrew

2

Meu primeiro instict foi sugerir uma trama mosaica ; representa graficamente cada subcategoria como um retângulo, em que uma dimensão representa a contagem total da categoria principal e a outra dimensão representa o compartilhamento proporcional da subcategoria. Há um pacote R para desenhá-los , mas também é bastante direto com as ferramentas gráficas de nível inferior.

No entanto, os gráficos de mosaico (como gráficos de barras empilhadas com base em porcentagem) funcionam melhor se houver apenas 2 ou 3 categorias na dimensão na qual você deseja comparar proporções. Portanto, eles funcionariam bem se você quisesse comparar as diferenças entre os tópicos na proporção de artigos que estão em cada um dos três jornais , mas não tanto para o uso pretendido, comparando as diferenças entre os três jornais na proporção de cobertura para cada tópico . Uma distinção sutil, mas importante!

Para o que você deseja enfatizar, acho que o gráfico mais eficaz é um dos mais simples - um gráfico de barras agrupado. Mais pessoas entendem gráficos de barras do que gráficos de pontos; de relance, você pode ver que está comparando quantidades de tamanhos diferentes, e os valores que deseja comparar são lado a lado.

No entanto, se você realmente quiser enfatizar as diferenças na proporção, poderá criar um gráfico de barras agrupado personalizado, modificado para posicionar cada grupo, para que o valor mediano por categoria seja alinhado com o eixo, em vez dos valores zero:

                  Difference in proportion of coverage
                     per Newspaper,
                     relative to category median 
                     (narrow bars)
    ____-0.1%____0_____0.1%____0.2%_____
                 |
        |********|*****
A       |~~~~~~~~|
        |####    |
                 |
            |****|**********
B           |~~  |
            |####|
                 |
         |*****  |
C        |~~~~~~~|~~~~~
         |#######|
                 |
     |***        |
D    |~~~~~~~~~~~|
     |###########|##
                 |
0.2%_____0.1%____0_____
Median proportion of coverage 
   per category, all papers
   (large bars)

Observe que as barras em cada grupo ainda estão alinhadas para facilitar a comparação de tamanho e que a linha de base de cada grupo agora está posicionada à esquerda do eixo de acordo com o valor mediano do grupo, enquanto as barras que se projetam à direita do eixo são equivalentes ao seu segundo gráfico de barras, mostrando a diferença entre as duas principais categorias.

Independentemente de você usar um gráfico de barras agrupado padrão ou um gráfico com ajuste de deslocamento como o descrito acima, você ainda pode ter uma idéia de gráficos em mosaico e tornar a largura de cada barra proporcional à contagem total de artigos desse jornal (portanto, o tamanho de a barra é proporcional ao número de artigos desse jornal nessa categoria).

Como sua estatística de teste é uma propriedade de cada comparação , não de valores individuais, não acho que seja útil dimensionar todos os pontos de dados de acordo com a significância. Em vez disso, eu teria um ícone ao lado de cada agrupamento representando significado. Para publicação acadêmica, o padrão */ **/ ***tem o benefício de familiaridade, mas você pode ser criativo se quiser mostrar o continuum completo da estatística.

— AmeliaBR
fonte

A idéia principal aqui é agrupar as barras verticalmente. Esse é um design amplamente usado, mas implica 60 barras verticalmente em vez de 20 no original do pôster. Embora você possa ajustar claramente a largura da barra, acho que você precisará de mais espaço para fazê-lo bem neste caso, principalmente porque deseja adicionar espaço entre os grupos.

— Nick Cox

@NickCox Essa é uma desvantagem em comparação com o gráfico original mais compacto, embora você possa girar o gráfico inteiro 90 graus se uma figura orientada para a paisagem se adequar ao seu layout geral.

— AmeliaBR 15/03

Você poderia, mas 60 bares é dura da esquerda para a direita também, e 20 rótulos como "Irmandade Muçulmana e política" teria que permanecer legível ...

— Nick Cox

Você pode fazer com que as barras de um grupo sejam colocadas umas sobre as outras, em vez de lado a lado. Difícil dizer sem ver uma maquete (e minha arte ASCII não é muito boa em transmitir aparência). Seria menos intuitivo, pois não é uma estrutura tão familiar e pode causar confusão se duas barras tiverem exatamente a mesma altura. Mas se a alternativa é um pixel de largura bares ...

— AmeliaBR

Então, você está abordando a sugestão na minha resposta de um gráfico de pontos.

— Nick Cox

1

Você já tentou um gráfico de bolhas? https://code.google.com/apis/ajax/playground/?type=visualization#bubble_chart

Os tópicos individuais podem ser círculos e cada círculo pode ser um gráfico da porcentagem em que cada canal de notícias cobre o tópico. O tamanho do círculo pode indicar a cobertura relativa do tópico. por exemplo, se mais artigos são escritos sobre óleo do que cultura, o círculo de óleo tem um diâmetro maior.

— rocinante
fonte

[X, Y]

$[X,Y]$

1

@NickStauner Não vi a pergunta editada com o conjunto de dados quando a respondi originalmente. As coordenadas não significariam muito, mas o número de publicações. Os círculos podem ser agrupados por tópico ou por tamanho do diâmetro. Não sei por que as porcentagens foram usadas em primeiro lugar, pois os números são extremamente pequenos.

— 21414 rococante