Você está certo de que os mesmos valores no T-SNE podem ser distribuídos em diferentes pontos; a razão pela qual isso acontece é clara se você der uma olhada no algoritmo que o T-SNE percorre.
Para resolver sua primeira preocupação sobre os pontos realmente não serem os mesmos depois que o algoritmo foi aplicado ao conjunto de dados. Vou deixar você com um exercício para verificar por si mesmo, considere uma matriz simples e x 2 = [ 0 , 1 ] e execute o algoritmo real contra ele e verifique por si mesmo que os pontos resultantes não são realmente idêntico. Você pode fazer referência cruzada da sua resposta contra isso.x1=[0,1]x2=[0,1]
import numpy as np
from sklearn.manifold import TSNE
m = TSNE(n_components=2, random_state=0)
m.fit_transform(np.array([[0,1],[0,1]]))
Você também observaria que alterar as random_state
realmente modifica as coordenadas de saída do modelo. Não existe uma correlação real entre as coordenadas reais e seus resultados. Desde o primeiro passo do TSNE calcula a probabilidade condicional.
xixjpj|i=exp(−||xj−xi||22σ2)∑k≠iexp(−||xj−xi||22σ2)pij=pi|j+pj|i2Npijxixj
R2
Portanto, a verdade é que, em vez de olhar para os dois grupos, observe as distâncias entre eles, porque isso transmite mais informações do que as próprias coordenadas.
Espero que isto responda a sua pergunta :)