Estou tentando comparar visualmente como três publicações de notícias diferentes cobrem tópicos diferentes (determinado por meio de um modelo de tópico da LDA). Eu tenho dois métodos relacionados para fazer isso, mas recebi muitos comentários de colegas de que isso não é muito intuitivo. Espero que alguém tenha uma idéia melhor para visualizar isso.
No primeiro gráfico, mostro as proporções de cada tópico em cada publicação, da seguinte forma:
Isso é bem direto e intuitivo para quase todo mundo com quem conversei. No entanto, é difícil ver as diferenças entre as publicações. Qual jornal aborda mais qual tópico?
Para chegar a isso, fiz um gráfico da diferença entre a publicação com a maior e a segunda maior proporção de tópicos, colorida pela publicação com a mais alta. Como isso:
Portanto, a enorme barra de futebol, por exemplo, é realmente a distância entre o al-Ahram English e o Daily News Egypt (# 2 na cobertura de futebol), e é vermelho porque Al-Ahram é o número 1. Da mesma forma, os testes são verdes porque o Egypt Independent tem a maior proporção e o tamanho da barra é a distância entre o Egypt Independent e o Daily News Egypt (# 2 novamente).
O fato de eu ter que explicar que tudo isso em dois parágrafos é um sinal bastante claro de que o gráfico falha no teste de auto-suficiência. É difícil dizer o que realmente está acontecendo apenas olhando para ele.
Alguma sugestão geral sobre como destacar visualmente a publicação dominante para cada tópico de uma maneira mais intuitiva?
Edit: Dados para jogar: Aqui está a dput
saída do R , bem como um arquivo CSV .
Edit 2: Aqui está uma versão preliminar do gráfico de pontos, com os diâmetros dos pontos proporcionais à proporção do tópico no corpus (que é como os tópicos foram originalmente classificados). Embora eu ainda precise ajustá-lo um pouco mais, parece muito mais intuitivo do que o que estava fazendo antes. Obrigado a todos!