Qual é a diferença entre análise de componentes principais e escala multidimensional?

133

Qual a diferença entre PCA e MDS clássico? E quanto ao MDS versus o MDS não métrico? Existe um momento em que você prefere um sobre o outro? Como as interpretações diferem?

pca multidimensional-scaling pcoa

— Stephen Turner
fonte

96

A métrica MDS clássica de Torgerson é na verdade feita transformando distâncias em semelhanças e executando PCA (decomposição de autogênio ou decomposição de valor singular) nessas. [O outro nome desse procedimento (em distances between objects -> similarities between them -> PCAque os carregamentos são as coordenadas procuradas) é Análise de coordenadas principais ou PCoA .] Portanto, o PCA pode ser chamado de algoritmo do MDS mais simples.

O MDS não métrico baseia-se no algoritmo iterativo ALSCAL ou PROXSCAL (ou algoritmo semelhante a eles), que é uma técnica de mapeamento mais versátil que o PCA e também pode ser aplicada ao MDS métrico. Enquanto o PCA retém m dimensões importantes para você, o ALSCAL / PROXSCAL ajusta a configuração às m dimensões (você pré-define m ) e reproduz dissimilaridades no mapa de maneira mais direta e precisa do que o PCA normalmente pode (consulte a seção Ilustração abaixo).

Portanto, MDS e PCA provavelmente não estão no mesmo nível para estar alinhados ou opostos um ao outro. O PCA é apenas um método, enquanto o MDS é uma classe de análise. Como mapeamento, o PCA é um caso particular do MDS. Por outro lado, o PCA é um caso particular de análise fatorial que, sendo uma redução de dados, é mais do que apenas um mapeamento, enquanto o MDS é apenas um mapeamento.

Quanto à sua pergunta sobre MDS métrico vs MDS não métrico, há pouco a comentar, porque a resposta é direta. Se eu acredito que minhas dissimilaridades de entrada estão tão próximas das distâncias euclidianas que uma transformação linear será suficiente para mapeá-las no espaço m-dimensional, preferirei o MDS métrico. Se eu não acredito, a transformação monotônica é necessária, implicando o uso de MDS não métrico.

Uma nota sobre terminologia para um leitor. O termo Classic (al) MDS (CMDS) pode ter dois significados diferentes em uma vasta literatura sobre MDS, portanto é ambíguo e deve ser evitado. Uma definição é que CMDS é sinônimo da métrica MDS de Torgerson. Outra definição é que CMDS é qualquer MDS (por qualquer algoritmo; análise métrica ou não-métrica) com entrada de matriz única (pois existem modelos analisando muitas matrizes de uma só vez - modelo "INDSCAL" individual e modelo replicado).

Ilustração para a resposta . Alguma nuvem de pontos (elipse) está sendo mapeada em um mapa mds unidimensional. Um par de pontos é mostrado em pontos vermelhos.

O MDS iterativo ou "verdadeiro" visa diretamente reconstruir distâncias aos pares entre objetos. Pois é tarefa de qualquer MDS . Vários critérios de stress ou desajuste poderia ser minimizado entre o distâncias riginal e distâncias no m ap: , , . Um algoritmo pode (MDS não métrico) ou não (MDS métrico) incluir a transformação monotônica dessa maneira. $\|D_o-D_m\|_2^2$ $\|D_o^2-D_m^2\|_1$ $\|D_o-D_m\|_1$

O MDS baseado em PCA (Torgerson's ou PCoA) não é correto. Minimiza as distâncias ao quadrado entre os objetos no espaço original e suas imagens no mapa. Esta não é uma tarefa MDS genuína; é bem-sucedido, como MDS, apenas na medida em que os eixos principais juniores descartados são fracos. Se explica muito mais variância de o primeiro pode por si só refletem substancialmente distâncias pares na nuvem, especialmente para pontos deitado distantes ao longo da elipse. O MDS iterativo sempre vencerá, e especialmente quando o mapa for muito pouco dimensional. O MDS iterativo também terá mais sucesso quando uma elipse da nuvem for fina, mas executará melhor a tarefa mds do que o PCoA. Pela propriedade da matriz de dupla centragem (descrita aqui $P_1$ $P_2$ ) parece que o PCoA minimiza , que é diferente de qualquer uma das minimizações acima. $\|D_o\|_2^2-\|D_m\|_2^2$

Mais uma vez, o PCA projeta os pontos da nuvem no subespaço de economia corporal mais vantajoso. Ele não projeta distâncias aos pares , localizações relativas de pontos em um subespaço que economizam mais a esse respeito, como faz o MDS iterativo. No entanto, historicamente PCoA / PCA é considerado um dos métodos da MDS métrica.

— ttnphns
fonte

3

(+1) Gostei das duas respostas, provavelmente esta um pouco mais.

— Dmitrij Celov

O link do PDF relacionado ao PCoA. Pode ser encontrado no Web Archive: web.archive.org/web/20160315120635/http://forrest.psych.unc.edu/…

— Pierre

49

Uhm ... bem diferente. No PCA, você recebe os dados contínuos multivariados (um vetor multivariado para cada sujeito) e está tentando descobrir se não precisa de tantas dimensões para conceituá-los. No MDS (métrico), você recebe a matriz de distâncias entre os objetos e tenta descobrir quais são as localizações desses objetos no espaço (e se precisa de um espaço 1D, 2D, 3D etc.). No MDS não métrico, você sabe apenas que os objetos 1 e 2 estão mais distantes que os objetos 2 e 3, e tenta quantificar isso, além de encontrar as dimensões e os locais.

Com uma notável extensão de imaginação, você pode dizer que um objetivo comum do PCA e do MDS é visualizar objetos em 2D ou 3D. Mas, considerando a diferença entre as entradas, esses métodos não serão discutidos nem mesmo relacionados à distância em nenhum livro multivariado. Suponho que você pode converter os dados utilizáveis para PCA em dados utilizáveis para MDS (digamos, calculando distâncias de Mahalanobis entre objetos, usando a matriz de covariância de amostra), mas isso resultaria imediatamente em uma perda de informações: o MDS é definido apenas localização e rotação, e os dois últimos podem ser feitos de forma mais informativa com o PCA.

Se eu mostrasse brevemente a alguém os resultados do MDS não métrico e quisesse dar uma idéia aproximada do que ele faz sem entrar em detalhes, eu poderia dizer:

Dadas as medidas de semelhança ou dissimilaridade que temos, estamos tentando mapear nossos objetos / sujeitos de tal maneira que as 'cidades' que eles compõem tenham distâncias entre eles que sejam tão próximas a essas medidas de similaridade quanto nós. Porém, só poderíamos mapeá-los perfeitamente no espaço dimensional, por isso estou representando as duas dimensões mais informativas aqui - como o que você faria no PCA se mostrasse uma imagem com os dois principais componentes principais. $n$

— StasK
fonte

18

Um PCA aplicado em uma matriz de correlação não é equivalente a um MDS com distâncias euclidianas calculadas em variáveis padronizadas?

— chl

Portanto, se eu mostrasse brevemente a alguém os resultados do MDS não métrico e quisesse dar uma idéia aproximada do que ele faz sem entrar em detalhes, eu poderia dizer "isso faz algo parecido com o PCA" sem ser enganoso?

— Freya Harrison

6

Eu diria: "Dadas as medidas de semelhança ou dissimilaridade que temos, estamos tentando mapear nossos objetos / sujeitos de tal maneira que as 'cidades' que eles constroem tenham distâncias entre eles mais próximas dessas medidas de similaridade que só podemos mapeá-los perfeitamente no espaço

dimensional, por isso estou representando as dimensões mais informativas aqui - como o que você faria no PCA se mostrasse uma imagem com os dois principais componentes principais ".

n

$n$

— StasK 5/10

+1 Legal - para mim, esse comentário agrada a sua resposta. Obrigado.

— Freya Harrison

47

Dois tipos de MDS métrico

A tarefa de escalonamento multidimensional métrica (MDS) pode ser abstracto formulado como se segue: dado um matriz de distâncias emparelhadas entre pontos, encontrar uma incorporação baixo-dimensional de pontos de dados em tal que distância euclidiana entre eles aproximam-se do dadas as distâncias: $n\times n$ $\mathbf D$ $n$ $\mathbb R^k$

‖ x_{i} - x_{j} ‖ \approx D_{i j} .

$\|\mathbf x_i - \mathbf x_j\|\approx D_{ij}.$

Se "aproximado" aqui é entendido no sentido habitual de erro de reconstrução, por exemplo, se o objectivo é o de minimizar a função custo chamado de "tensão": em seguida, a solução é não é equivalente ao PCA. A solução não é fornecida por nenhuma fórmula fechada e deve ser calculada por um algoritmo iterativo dedicado.

Stress \sim ‖ D - ‖ x_{i} - x_{j} ‖ ‖^{2},

$\text{Stress} \sim \Big\|\mathbf D - \|\mathbf x_i - \mathbf x_j\|\Big\|^2,$

"MDS Clássica", também conhecido como "Torgerson MDS", substitui esta função de custo por um relacionada mas não equivalentes , denominada "estirpe": que visa minimizar erro de reconstrução de produtos escalares centrados em vez de distâncias. Acontece que pode ser calculado a partir de (se são distâncias euclidianas) e que minimizar o erro de reconstrução de é exatamente o que o PCA faz, como mostrado na próxima seção.

Strain \sim ‖ K_{c} - ⟨ x_{i}, x_{j} ⟩ ‖^{2},

$\text{Strain} \sim \Big\|\mathbf K_c - \langle\mathbf x_i, \mathbf x_j\rangle\Big\|^2,$

K_{c}

$\mathbf K_c$

D

$\mathbf D$

D

$\mathbf D$

K_{c}

$\mathbf K_c$

O MDS clássico (Torgerson) em distâncias euclidianas é equivalente ao PCA

Que os dados sejam coletados na matriz de tamanho com observações em linhas e recursos em colunas. Seja a matriz centralizada com médias de colunas subtraídas. $\mathbf X$ $n \times k$ $\mathbf X_c$

Então o PCA equivale a decompor valores singulares , com colunas de como componentes principais. Uma maneira comum de obtê-los é através de uma composição independente da matriz de covariância $\mathbf X_c = \mathbf {USV^\top}$ $\mathbf{US}$ $\frac{1}{n}\mathbf X_c^\top \mathbf X^\vphantom{\top}_c$ $\mathbf K_c = \mathbf X^\vphantom{\top}_c \mathbf X^\top_c=\mathbf U \mathbf S^2 \mathbf U^\top$

$\mathbf X_c = (\mathbf I - \frac{1}{n}\mathbf 1_n)\mathbf X$ $\mathbf 1_n$ $n \times n$

K_{c} = (Eu - \frac{1_{n}}{n}) K (Eu - \frac{1_{n}}{n}) = K - \frac{1_{n}}{n} K - K \frac{1_{n}}{n} + \frac{1_{n}}{n} K \frac{1_{n}}{n},

$\mathbf K_c = \left(\mathbf I - \frac{\mathbf 1_n}{n}\right)\mathbf K\left(\mathbf I - \frac{\mathbf 1_n}{n}\right) = \mathbf K - \frac{\mathbf 1_n}{n} \mathbf K - \mathbf K \frac{\mathbf 1_n}{n} + \frac{\mathbf 1_n}{n} \mathbf K \frac{\mathbf 1_n}{n},$

K = X X^{⊤}

$\mathbf K = \mathbf X \mathbf X^\top$

X

$\mathbf X$

K

$\mathbf K$

K_{c}

$\mathbf K_c$

$n \times n$ $\mathbf D$ $D_{ij} = \|\mathbf x_i - \mathbf x_j\|$ $\mathbf K_c$

\begin{aligned} D_{i j}^{2} = ‖ x_{i} - x_{j} ‖^{2} & = ‖ x_{i} - \bar{x} ‖^{2} + ‖ x_{j} - \bar{x} ‖^{2} - 2 ⟨ x_{i} - \bar{x}, x_{j} - \bar{x} ⟩ \\ = ‖ x_{i} - \bar{x} ‖^{2} + ‖ x_{j} - \bar{x} ‖^{2} - 2 [K_{c}]_{i j} . \end{aligned}

$\begin{align} D_{ij}^2 = \|\mathbf x_i - \mathbf x_j\|^2 &= \|\mathbf x_i - \bar{\mathbf x}\|^2 + \|\mathbf x_j - \bar{\mathbf x}\|^2 - 2\langle\mathbf x_i - \bar{\mathbf x}, \mathbf x_j - \bar{\mathbf x} \rangle \\ &= \|\mathbf x_i - \bar{\mathbf x}\|^2 + \|\mathbf x_j - \bar{\mathbf x}\|^2 - 2[K_c]_{ij}. \end{align}$

- D^{2} / 2

$-\mathbf D^2/2$

K_{c}

$\mathbf K_c$

D^{2}

$\mathbf D^2$

K_{c}

$\mathbf K_c$

K_{c} = - (I - \frac{1_{n}}{n}) \frac{D^{2}}{2} (I - \frac{1_{n}}{n}) .

$\mathbf K_c = -\left(\mathbf I - \frac{\mathbf 1_n}{n}\right)\frac{\mathbf D^2}{2}\left(\mathbf I - \frac{\mathbf 1_n}{n}\right).$

$\mathbf D$ $\mathbf D \mapsto \mathbf K_c \mapsto \mathbf{US}$

$\|\mathbf x_i - \mathbf x_j\|$

Referência: Os Elementos da Aprendizagem Estatística , seção 18.5.2.

— ameba
fonte

X X^{T}

$\mathbf X \mathbf X^T$

n \times n

$n \times n$

Obrigado, @cbeleites, é claro que você está certo - isso é apenas um erro de digitação. Vai consertar isso agora. Deixe-me saber se você encontrar outros erros (ou sinta-se à vontade para editar diretamente).

— Ameba

1

+1. E obrigado por mostrar pela matemática o que foi afirmado no primeiro parágrafo da minha resposta.

— precisa saber é o seguinte

2

+1 Gostaria que essa fosse a resposta aceita / principal. Eu acho que merece ser facilmente.

— Zhubarb

35

O PCA produz EXATAMENTE os mesmos resultados que o MDS clássico se a distância euclidiana for usada.

Estou citando Cox e Cox (2001), p 43-44:

Existe uma dualidade entre uma análise de componentes de objetos principais e a PCO [análise de coordenadas principais, também conhecida como MDS clássica], em que as diferenças são dadas pela distância euclidiana.

A seção em Cox & Cox explica claramente:

$X$ $n$ $p$
$X'X$ $\xi$ $\mu$
$X$ $XX'$ $v$ $\lambda$
$XX'$ $X'X$ $i < p$ $\mu_i$ $\lambda_i$
$i^{th}$ $X'Xv_i = \lambda_i v_i$
$v_i$ $X'$ $(X'X)X'v_i = \lambda_i X'v_i$
$X'X \xi_i = \mu_i \xi_i$ $\lambda_i = \mu_i$ $\xi_i = X'v_i$ $i<p$

— user1705135
fonte

2

Eu fiz alguma codificação em R e usei o cmdscale como uma implementação do MDS clássico e do prcomp para PCA - no entanto, o resultado não é o mesmo ... existe algum ponto que estou perdendo ?!

— user4581

3

same results as classical MDS. Por "MDS clássico", você deve estar significando o MDS de Torgerson aqui. Então a afirmação é realmente verdadeira, pois o MDS de Torgerson é na verdade PCA (apenas começando pela matriz de distância). Se definir "MDS clássico" de maneira diferente (veja minha resposta), a afirmação não é verdadeira.

— ttnphns

7

Espere, como diabos XX fornece distância euclidiana? XX 'é um produto interno - se a matriz fosse padronizada, daria a semelhança de cosseno. A distância euclidiana requer uma subtração e uma raiz quadrada.

— ShainaR

X X^{'} v_{i} = λ_{i} v_{i}

$XX'v_i = \lambda_i v_i$

4

Comparação: "O Metric MDS fornece o mesmo resultado como PCA" - proceduralmente - quando analisamos a maneira como o SVD é usado para obter o melhor. Mas, os critérios de alta dimensão preservados são diferentes. O PCA usa uma matriz de covariância centralizada, enquanto o MDS usa uma matriz de gram obtida por matrizes de distância de centralização dupla.

$Tr(X^T(I-\frac{1}{n}ee^T)X)$ $X$ $X$ $Z^TZ$ $X$ $Y$ $||G-Y^TY||_{F}^{2}$

— carro fúnebre
fonte