Perguntas sobre PCA: quando os PCs são independentes? por que o PCA é sensível ao dimensionamento? por que os PCs são restritos a serem ortogonais?

Estou tentando entender algumas descrições do PCA (os dois primeiros são da Wikipedia), ênfase adicionada:

Os componentes principais são garantidos como independentes apenas se o conjunto de dados for normalmente distribuído em conjunto .

A independência dos principais componentes é muito importante? Como posso entender essa descrição?

O PCA é sensível à escala relativa das variáveis originais.

O que significa 'dimensionamento' lá? Normalização de diferentes dimensões?

A transformação é definida de tal maneira que o primeiro componente principal tenha a maior variação possível e cada componente subsequente, por sua vez, tenha a maior variação sob a restrição de que seja ortogonal aos componentes anteriores .

Você pode explicar essa restrição?

pca dimensionality-reduction

— kakanana
fonte

O nº 2 aplica-se apenas se o PCA for executado por recomposição automática da matriz de covariância. Se for realizado por uma composição independente da matriz de correlação, o PCA é insensível ao dimensionamento.

— Alexis3

@ Alexis Obrigado por sua postagem. Para o número 2, você se importaria de explicar o que significa o 'escalonamento'? a mudança dinâmica da dimensão correspondente dos dados?

— Kakanana

"Escala" pode significar algumas coisas. (1) Pode significar transformações lineares dos dados , como , em que e ; ou (2) que as variáveis individuais em são todas medidas na mesma escala e possuem variações de tamanho aproximado. Meu comentário se aplica a esses dois significados.

X

$\mathbf{X}$

X^{*} = a + b X

$\mathbf{X^{*}} = a + b\mathbf{X}$

- \infty < a < \infty

$-\infty < a < \infty$

0 < b < \infty

$0 < b < \infty$

X

$\mathbf{X}$

— Alexis #

Q1 Os principais componentes são variáveis mutuamente ortogonais (não correlacionadas). Ortogonalidade e independência estatística não são sinônimos . Não há nada de especial nos componentes principais; o mesmo se aplica a quaisquer variáveis na análise de dados multivariada. Se os dados são normais multivariados (o que não é o mesmo que afirmar que cada uma das variáveis é univariada normal) e as variáveis não são correlacionadas, então sim, elas são independentes. Se a independência dos componentes principais é importante ou não - depende de como você os usará. Muitas vezes, sua ortogonalidade é suficiente.

Q2 Sim, escalar significa reduzir ou esticar a variação de variáveis individuais. As variáveis são as dimensões do espaço em que os dados se encontram. Os resultados do PCA - os componentes - são sensíveis à forma da nuvem de dados, à forma desse "elipsóide". Se você centralizar apenas as variáveis, deixe as variações como estão, isso geralmente é chamado de "PCA baseado em covariâncias". Se você também padronizar as variáveis para variações = 1, isso geralmente é chamado de "PCA baseado em correlações" e pode ser muito diferente do anterior (consulte um encadeamento ). Além disso, relativamente raramente as pessoas fazem PCA em dados não centralizados: dados brutos ou apenas dimensionados para a magnitude da unidade; os resultados desse PCA são muito diferentes de onde você centraliza os dados (veja a figura ).

Q3 A "restrição" é como o PCA funciona (consulte uma enorme discussão ). Imagine que seus dados são nuvem tridimensional (3 variáveis, pontos); a origem é definida no centróide (a média) dele. O PCA desenha o componente1 como tal eixo através da origem, a soma das projeções quadradas (coordenadas) nas quais é maximizada ; isto é, a variação ao longo do componente1 é maximizada. Depois que o componente1 é definido, ele pode ser removido como uma dimensão, o que significa que os pontos de dados são projetados no plano ortogonal a esse componente. Você fica com uma nuvem bidimensional. Então, novamente, você aplica o procedimento acima para encontrar o eixo da máxima $n$ variação - agora nesta nuvem 2D remanescente. E isso será component2. Você remove o componente desenhado2 do plano projetando pontos de dados na linha ortogonal a ele. Essa linha, representando a nuvem 1D remanescente, é definida como o último componente, componente 3. Você pode ver que em cada uma dessas 3 "etapas", a análise a) encontrou a dimensão da maior variância no espaço dimensional atual , b) reduziu os dados às dimensões sem essa dimensão, ou seja, ao espaço dimensional ortogonal à dimensão mencionada. É assim que acontece que cada componente principal é uma "variação máxima" e todos os componentes são mutuamente ortogonais (veja também ). $p$ $p-1$

[ PS Observe que "ortogonal" significa duas coisas: (1) eixos variáveis como eixos fisicamente perpendiculares; (2) variáveis não correlacionadas por seus dados. Com o PCA e alguns outros métodos multivariados, essas duas coisas são a mesma coisa. Porém, com algumas outras análises (por exemplo, análise discriminante), variáveis latentes extraídas não correlacionadas não significam automaticamente que seus eixos são perpendiculares no espaço original.]

— ttnphns
fonte

+1 (há muito tempo). Os futuros leitores também podem querer ler as respostas para essa pergunta: Por que os principais componentes do PCA (vetores próprios da matriz de covariância) são mutuamente ortogonais? - está marcado como duplicado, mas contém algumas respostas úteis.

— Ameba

@ttnphns No PS, você escreveu "essas duas coisas são a mesma coisa". Acho o fraseado um tanto confuso. Se eu penso no PCA como uma mudança de base, dizer que a nova base é ortogonal não é o mesmo que dizer que os novos recursos (ou seja, após a mudança de base) não são correlacionados (talvez eu possa encontrar outra base ortogonal de modo que os novos recursos sejam correlacionados). Percebo que o PCA garante que os PCs não estão correlacionados e que os eixos principais são ortogonais, mas por que essas coisas são iguais?

— Oren Milman

@ttnphns também, talvez seja útil vincular a esta resposta ? Ele me ajudou a limpar alguma confusão em relação a ortogonalidade vs uncorrelation de variáveis aleatórias, como de acordo com algumas definições que são as mesmas, e de acordo com algumas definições que são os mesmos apenas para as variáveis centradas ..

— Oren Milman

@ orenmn, obrigado por seus comentários sobre ortogonalidade. Na minha nota de rodapé, no entanto, eu estava falando sobre ortogonalidade de eixos , não de vetores de dados. Por favor, siga o link que eu dei para demonstrar.

— ttnphns