Como plotar clusters de uma maneira agradável?


7

Eu tenho um grande conjunto de dados de texto em cluster. Cada cluster é representado por um centróide dos textos vetorizados que pertencem a ele, o número de textos, a data de criação e outros parâmetros. Não consigo plotar os agrupamentos em um espaço n-dimensional. Quais opções eu tenho?


Pesquisar holoviews
Aditya

esse babador é ótimo @Aditya!
Federico Caccia

Uma parcela de amostra utilizando datashader a partir da mesma .. datascience.stackexchange.com/a/28659/35644 @Federico Caccia
Aditya

Respostas:


3

T-SNE é outro algoritmo de redução de dimensionalidade não mencionado no artigo na outra resposta. Usado para dados com MUITO alta dimensão, se você treinou algumas incorporações para o seu conjunto de dados. Referência aqui . Biblioteca padrão do Python aqui .

Felicidades


2

Várias opções:

muito mais ...


1

Você pode usar um algoritmo de redução de dimensionalidade (como a análise de componentes principais) para reduzir o número de dimensões dos dados para 2 ou 3 e, em seguida, executar gráficos de dispersão usando as variáveis ​​reduzidas, colorindo-as de acordo com o cluster ao qual pertencem. Em este blogpost uma coisa semelhante é feito.


Como tenho milhares de dimensões, o PCA pode se tornar em muita perda de informações. E eu só quero plotar os centróides de cada cluster. Acho que a melhor maneira é plotar o tempo de criação em relação a outro recurso e fornecer ao ponto (bolha) um raio proporcional à quantidade de elementos nesse cluster.
Federico Caccia
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.