Eu gostaria de fazer uma redução de dimensionalidade em quase 1 milhão de vetores, cada um com 200 dimensões ( doc2vec
). Estou usando a TSNE
implementação do sklearn.manifold
módulo para ele e o grande problema é a complexidade do tempo. Mesmo com method = barnes_hut
, a velocidade da computação ainda é baixa. Algum tempo até fica sem memória.
Estou executando-o em um processador de 48 núcleos com 130G de RAM. Existe um método para executá-lo paralelamente ou usar o recurso abundante para acelerar o processo.