Os dados devem ser centralizados + dimensionados antes de aplicar o t-SNE?


18

Alguns dos recursos de meus dados têm valores grandes, enquanto outros possuem valores muito menores.

É necessário centralizar os dados na escala + antes de aplicar o t-SNE para evitar desvios para valores maiores?

Eu uso a implementação sklearn.manifold.TSNE do Python com a métrica de distância euclidiana padrão.

Respostas:


18

A centralização não deve importar, uma vez que o algoritmo opera apenas nas distâncias entre os pontos, no entanto, o redimensionamento é necessário se você deseja que as diferentes dimensões sejam tratadas com igual importância, pois a norma 2 será mais fortemente influenciada por dimensões com grande variação.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.