Isenção de responsabilidade: só tenho conhecimento tangencial sobre o assunto, mas como ninguém mais respondeu, tentarei
A distância é importante
Qualquer técnica de redução de dimensionalidade baseada em distâncias (tSNE, UMAP, MDS, PCoA e possivelmente outras) é apenas tão boa quanto a métrica de distância usada. Como o @amoeba indica corretamente, não pode haver uma solução única, você precisa ter uma métrica de distância que capture o que você considera importante nos dados, ou seja, que as linhas que você consideraria semelhantes têm uma pequena distância e as linhas que você usaria considerar diferente tem grande distância.
Como você escolhe uma boa métrica de distância? Primeiro, deixe-me fazer uma pequena diversão:
Ordenação
Muito antes dos dias de glória do aprendizado de máquina moderno, os ecologistas da comunidade (e provavelmente outros) tentaram fazer bons gráficos para a análise exploratória de dados multidimensionais. Eles chamam de ordenação de processos e é uma palavra-chave útil para pesquisar na literatura sobre ecologia, que remonta pelo menos aos anos 70 e continua forte hoje.
O importante é que os ecologistas tenham um conjunto de dados muito diversificado e lidem com misturas de características binárias, inteiras e com valor real (por exemplo, presença / ausência de espécies, número de amostras observadas, pH, temperatura). Eles passaram muito tempo pensando em distâncias e transformações para fazer as ordenações funcionarem bem. Eu não entendo muito bem o campo, mas, por exemplo, a revisão pela diversidade de Legendre e De Cáceres Beta como a variação dos dados da comunidade: coeficientes e particionamentos diferentes mostram um número impressionante de possíveis distâncias que você pode querer conferir.
Escala multidimensional
A ferramenta essencial para a ordenação é o dimensionamento multidimensional (MDS), especialmente a variante não métrica (NMDS), que eu encorajo você a tentar além do t-SNE. Eu não sei sobre o mundo Python, mas a implementação do R em metaMDS
função do vegan
pacote faz muitos truques para você (por exemplo, executar várias execuções até encontrar duas semelhantes).
Isso foi contestado, veja os comentários: A parte interessante do MDS é que ele também projeta os recursos (colunas), para que você possa ver quais recursos impulsionam a redução da dimensionalidade. Isso ajuda você a interpretar seus dados.
Lembre-se de que o t-SNE foi criticado como uma ferramenta para obter entendimento, por exemplo, essa exploração de suas armadilhas - ouvi o UMAP resolver alguns dos problemas, mas não tenho experiência com o UMAP. Também não duvido que parte da razão pela qual os ecologistas usem o NMDS seja cultura e inércia, talvez o UMAP ou o t-SNE sejam realmente melhores. Sinceramente, não sei.
Estendendo sua própria distância
[ 0 , 1 ] independentemente do número de características, enquanto a magnitude da distância euclidiana reflete o número de características.
Uma palavra de cautela
O tempo todo, lembre-se de que, como você tem tantos botões para afinar, você pode facilmente cair na armadilha da afinação até ver o que queria ver. Isso é difícil de evitar completamente na análise exploratória, mas você deve ser cauteloso.