Entendo pelo artigo de Hinton que o T-SNE faz um bom trabalho em manter as semelhanças locais e um trabalho decente em preservar a estrutura global (clusterização).
No entanto, não estou claro se os pontos que aparecem mais próximos em uma visualização t-sne 2D podem ser assumidos como pontos de dados "mais semelhantes". Estou usando dados com 25 recursos.
Como exemplo, observando a imagem abaixo, posso assumir que os pontos de dados azuis são mais semelhantes aos verdes, especificamente ao maior cluster de pontos verdes ?. Ou, perguntando de forma diferente, é aceitável assumir que os pontos azuis são mais semelhantes ao verde no cluster mais próximo do que aos vermelhos no outro cluster? (desconsiderando pontos verdes no cluster vermelho-ish)
Ao observar outros exemplos, como os apresentados no sci-kit, aprendemos o aprendizado múltiplo, parece correto assumir isso, mas não tenho certeza se está estatisticamente correto.
EDITAR
Calculei manualmente as distâncias do conjunto de dados original (a distância euclidiana média em pares) e a visualização realmente representa uma distância espacial proporcional em relação ao conjunto de dados. No entanto, gostaria de saber se isso é razoavelmente aceitável a partir da formulação matemática original de t-sne e não por mera coincidência.