O PCA ainda é feito através da composição automática da matriz de covariância quando a dimensionalidade é maior que o número de observações?

Eu tenho uma matriz , contendo minhas amostras no espaço dimensional. Agora desejo codificar minha própria análise de componentes principais (PCA) no Matlab. Eu para primeiro. $20\times100$ $X$ $N=20$ $D=100$ $X$ $X_0$

Li no código de alguém que em tais cenários em que temos mais dimensões do que observações, não decompomos mais a matriz de covariância de $X_0$ . Em vez disso, Eigen-decompor $\frac{1}{N-1}X_0X_0^T$ . Por que isso está correto?

A matriz de covariância normal é do tamanho $D\times D$ , cada elemento do qual nos diz a covariância entre duas dimensões. Para mim, $\frac{1}{N-1}X_0X_0^T$ nem sequer tem as dimensões corretas! É $N\times N$ matriz, então o que isso nos diria? Covariância entre duas observações ?!

pca

— Sibbs Gambling
fonte

A resposta para sua pergunta está na circunstância de que, como segue a sua tarefa, você não precisa da matriz de covariância das colunas. Você só queria isso como um caminho para obter PCs. Direita? Mas os mesmos resultados do PCA podem ser obtidos via eigen de X'Xe XX'(assim como svd de Xe X'). O que é chamado "loadings" em um caso será chamado "pc scores" no outro e vice-versa. Como ambas são apenas coordenadas ( veja, por exemplo ) e os eixos, as "dimensões principais" são as mesmas.

— precisa saber é o seguinte

(cont.) Se sim, e você é livre para escolher qual decompor - é aconselhável decompor o que deve ser feito com mais rapidez / eficiência. Quando n<pé preciso menos RAM e menos tempo para se decompor, XX'pois é de tamanho menor.

— precisa saber é

@ttnphns Ótima explicação. Eu vejo o ponto agora. No entanto, ainda tenho problemas para ir de eigen XX'para o PC. Poderia me mostrar brevemente como? Dado que os PCs são apenas vetores próprios da matriz de covariância, tentei passar de eigen de XX'para eigen da matriz de covariância X'X, mas falhei.

— Sibbs Gambling

Eu tenho que ir. Talvez @amoeba (que é muito mais ágil em álgebra do que eu) ou outro leitor vá procurar aqui em breve e ajudá-lo. Felicidades.

— ttnphns

@ttnphns: Feito :)

— ameba

A matriz de covariância é do tamanho e é dada por $D\times D$

C = \frac{1}{N - 1} X_{0}^{⊤} X_{0}^{} .

$\mathbf C = \frac{1}{N-1}\mathbf X_0^\top \mathbf X^\phantom\top_0.$

A matriz de que você está falando obviamente não é uma matriz de covariância; é chamado de matriz Gram e tem tamanho: $N\times N$

G = \frac{1}{N - 1} X_{0}^{} X_{0}^{⊤} .

$\mathbf G = \frac{1}{N-1}\mathbf X^\phantom\top_0 \mathbf X_0^\top.$

A análise de componentes principais (PCA) pode ser implementada via composição automática de qualquer uma dessas matrizes. Essas são apenas duas maneiras diferentes de calcular a mesma coisa.

A maneira mais fácil e útil de ver isso é usar a decomposição de valor singular da matriz de dados . Ligando isso às expressões e , obtemos: $\mathbf X = \mathbf {USV}^\top$ $\mathbf C$ $\mathbf G$

\begin{aligned} C & = V \frac{S^{2}}{N - 1} V^{⊤} \\ G & = U \frac{S^{2}}{N - 1} U^{⊤} . \end{aligned}

$\begin{align}\mathbf C&=\mathbf V\frac{\mathbf S^2}{N-1}\mathbf V^\top\\\mathbf G&=\mathbf U\frac{\mathbf S^2}{N-1}\mathbf U^\top.\end{align}$

Os vetores próprios da matriz de covariância são as principais direções. As projeções dos dados sobre esses vetores próprios são componentes principais; essas projeções são dadas por . Componentes principais escalada a unidade de comprimento são dadas por . Como você vê, os vetores próprios da matriz Gram são exatamente esses componentes principais em escala. E os valores próprios de e coincidem. $\mathbf V$ $\mathbf {US}$ $\mathbf U$ $\mathbf C$ $\mathbf G$

A razão pela qual você pode achar recomendável usar a matriz Gram se for porque será de tamanho menor, em comparação com a matriz de covariância, e, portanto, será mais rápido para calcular e mais rápido para compor por conta própria. De fato, se sua dimensionalidade for muito alta, não há como você armazenar a matriz de covariância na memória; portanto, operar em uma matriz Gram é a única maneira de executar o PCA. Mas, para gerenciável, você ainda pode usar a composição automática da matriz de covariância, se preferir, mesmo que . $N<D$ $D$ $D$ $N<D$

Veja também: Relação entre vetores próprios de e no contexto do PCA $\frac{1}{N}XX^\top$ $\frac{1}{N}X^\top X$

— ameba
fonte

Ótima resposta! Eu não sabia que tinha nome! Muito obrigado! Agora estou confiante em usá-lo para acelerar meu cálculo.

— Sibbs Gambling

Minha resposta assume que o que você deseja obter é , e talvez também . Se você também quiser obter , então você pode calcular-lo através de depois que você tem . De fato, se sua dimensionalidade é muito alta, não há como você armazenar a matriz de covariância na memória; portanto, operar em uma matriz Gram é a única maneira de executar o PCA.

U

$U$

S / (n - 1)

$S/(n-1)$

V

$V$

U^{⊤} X

$U^\top X$

U

$U$

— Ameba

Essa resposta é mais clara que muitas exposições que já vi nos livros. Obrigado.

— usεr11852

Para fins puramente referenciais: Eu acho que o artigo de 1969 da Technometrics de IJ Good, " Some Applications of the Decomposition Singular of a Matrix ", é um dos primeiros a fazer uma referência completa a isso.

— usdr11852

@MattWenham Precisamente.

— Ameba