Como projetar o espaço de alta dimensão em um plano bidimensional?


11

Eu tenho um conjunto de pontos de dados em um espaço N-dimensional. Além disso, eu também tenho um centróide neste mesmo espaço N-dimensional. Existem abordagens que me permitam projetar esses pontos de dados em um espaço bidimensional, mantendo as informações de distância relativa no espaço original. O PCA é o correto?


1
Se você quiser tentar preservar distâncias, meu primeiro pensamento teria sido o dimensionamento multidimensional das próprias distâncias (que é relacionado ao PCA), mas, como você tem os locais e não apenas as distâncias, pelo que entendi, o PCA deve trabalhar para isso. .
Glen_b -Reinstala Monica 07/07

1
@Glen_b, O ponto principal não é que o MDS seja para entrada de distâncias e o PCA seja para entrada de coordenadas, mas que o MDS iterativo se encaixa em poucas dimensões, enquanto o PCA mantém poucas dimensões. Portanto, o MDS preserva as distâncias um pouco melhor do que o PCA clássico. A resposta para a pergunta é Sim, o PCA é adequado, mas o MDS é mais adequado.
ttnphns

1
Isso é amplamente estudado no campo da incorporação de espaço métrico , ou seja, como você pode reduzir a dimensionalidade dos seus dados enquanto minimiza a distorção das distâncias.
Bitwise

Respostas:


6

Uma estrutura geral que trata do seu problema é chamada redução de dimensionalidade. Você deseja projetar dados de N dimensões para 2 dimensões, preservando as "informações essenciais" em seus dados. O método mais adequado depende da distribuição dos seus dados, ou seja, o coletor N-dimensional. O PCA ajustará um plano usando o critério de mínimos quadrados. Provavelmente, isso funcionará mal no exemplo "rocambole": rocambole .

Os métodos mais modernos incluem o Kernel PCA, LLE, mapas de difusão e representações de dicionário esparsas. Em relação à preservação à distância, alguns métodos podem preservar distâncias não euclidianas.


2
É importante observar que os métodos de "redução de dimensionalidade" normalmente não mantêm "informações de distância relativa". Se eles fazem ou não, depende em parte do método e em parte da "distância" pretendida.
whuber

2

Como mencionado na resposta anterior, existem vários métodos de redução de dimensionalidade, e uma coisa importante a considerar é o que você está tentando representar - você está interessado em medidas de distância euclidiana? Ou uma métrica de similaridade entre amostras?

Para o primeiro, o PCA pode ser apropriado. É comumente usado com medidas contínuas, como medições de amostras (animais, plantas, etc ...). Eu também examinaria as menções mais modernas na resposta anterior.

Para o último, onde você pode tentar comparar semelhanças usando uma métrica de distância não euclidiana, existem alguns métodos bons, como Ordenação de Componentes Principais (PCoA) e Escala Multidimensional Não-métrica (NMDS). Um exemplo de quando você pode usá-las é quando você está comparando as comunidades ecológicas entre diferentes áreas, e você tem vários tipos diferentes de organismos que foram encontrados. Portanto, seus dados são dados de "contagem". Existem várias métricas de similaridade, como Jaccard, Sorensen, Bray-Curtis, que permitem efetivamente estimar quão semelhantes os sites são em sua composição de organismos. PCoA e NMDS basicamente permitem plotar as amostras (locais) para representar a distância ecológica (semelhança), e você tem uma pontuação por local em cada eixo.

Existem muitos bons livros e outros recursos para análise multivariada. Pesquise "Ordenação" no Google. Além disso, há um pacote R chamado 'vegan' que é realmente bom para realizar muito desse trabalho.


0

Seu problema parece um aplicativo de livro didático para dimensionamento multidimensional . Uma boa introdução pode ser encontrada aqui: http://www.mathpsyc.uni-bonn.de/doc/delbeke/delbeke.htm

Claro que você pode tentar o PCA. Mas o PCA não tem intenção de manter as informações de distância relativa no espaço original.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.