Os componentes PCA dos dados gaussianos multivariados são estatisticamente independentes?

Os componentes do PCA (na análise de componentes principais) são estatisticamente independentes se nossos dados são multivariados normalmente distribuídos? Se sim, como isso pode ser demonstrado / comprovado?

Pergunto porque vi este post , onde a resposta principal diz:

O PCA não faz uma suposição explícita de Gaussianity. Ele encontra os vetores próprios que maximizam a variação explicada nos dados. A ortogonalidade dos componentes principais significa que ele encontra os componentes mais não correlacionados para explicar o máximo possível de variação nos dados. Para distribuições gaussianas multivariadas, a correlação zero entre componentes implica independência, o que não é verdadeiro para a maioria das distribuições.

A resposta é declarada sem uma prova e parece implicar que o PCA produz componentes independentes se os dados forem multivariados normais.

Especificamente, digamos que nossos dados sejam exemplos de:

x \sim N (μ, Σ)

$\mathbf{x} \sim \mathcal N(\mathbf{\mu}, \mathbf{\Sigma})$

colocamos amostras de em linhas da nossa matriz de amostras , de modo que é . A computação do SVD de (depois da centralização) produz $n$ $\mathbf{x}$ $\mathbf{X}$ $\mathbf{X}$ $n \times m$ $\mathbf{X}$

X = {U S V}^{T}

$\mathbf{X} = \mathbf{USV}^{T}$

Podemos dizer que as colunas de são estatisticamente independentes, e também as linhas de ? Isso é verdade em geral, apenas para ou não é verdade? $\mathbf{U}$ $\mathbf{V}^T$ $\mathbf{x} \sim \mathcal N(\mathbf{\mu}, \mathbf{\Sigma})$

pca independence svd

— bill_e
fonte

stats.stackexchange.com/q/110508/3277 é uma pergunta semelhante.

— ttnphns

Não vejo como os PCs poderiam ser considerados "estatisticamente independentes" em mais de uma dimensão. Afinal, por definição, cada um é ortogonal a todos os outros; essa dependência funcional cria uma dependência estatística muito forte.

— whuber

@amoeba Espero ter sido sempre claro e fiel à pergunta, que considero claramente clara e inequívoca: como os dados são aleatórios, todas as entradas em . Apliquei a definição de independência estatística a eles. Isso é tudo. Seu problema parece ser que você está usando a palavra "não correlacionada" em dois sentidos muito diferentes, sem perceber: em virtude de como as colunas de são construídas, elas são geometricamente ortogonais como vetores em , mas eles não são de forma alguma vetores aleatórios independentes!

X

$X$

U

$U$

U

$U$ $\mathbb{R}^n$

— whuber

@amoeba Você está certo - a simulação mostra de maneira convincente que a correlação pode ser (fortemente) diferente de zero. No entanto, não estou contestando que "os componentes do PCA não estejam correlacionados" no sentido de "correlação" = "ortogonal", nem estou dizendo que qualquer livro em particular esteja incorreto. Minha preocupação é que tal afirmação, entendida adequadamente, seja tão irrelevante para a pergunta que tudo o que ela pode fazer (e fez) é semear uma extensa confusão no contexto atual.

— whuber

@whuber, tenho certeza que você estava ansioso por mais uma edição da minha resposta! Aqui está. Reconheço explicitamente seus pontos de vista sobre dependência e afirmo que as colunas de são assintoticamente independentes, como meu ponto principal. Aqui "assintoticamente" refere-se ao número de observações (linhas). Espero muito que possamos concordar com isso! Também argumento que para qualquer razoável , como , a dependência entre colunas é "praticamente irrelevante". Acho que esse é um argumento mais controverso, mas tento torná-lo razoavelmente preciso na minha resposta.

U

$U$

n

$n$

n

$n$

n = 100

$n=100$

— Ameba diz Restabelecer Monica

Vou começar com uma demonstração intuitiva.

Gerei observações (a) de uma distribuição 2D fortemente não-Gaussiana e (b) de uma distribuição Gaussiana 2D. Nos dois casos, centralizei os dados e realizei a decomposição do valor singular . Então, para cada caso, fiz um gráfico de dispersão das duas primeiras colunas de , uma contra a outra. Note que é normalmente colunas de que são chamados "componentes principais" (PCs); colunas de são PCs dimensionados para ter norma de unidade; Ainda, nesta resposta que eu estou focalizando em colunas de . Aqui estão os gráficos de dispersão: $n=100$ $\mathbf X=\mathbf{USV}^\top$ $\mathbf U$ $\mathbf{US}$ $\mathbf U$ $\mathbf U$

PCA de dados gaussianos e não gaussianos

Eu acho que declarações como "componentes PCA não são correlacionados" ou "componentes PCA são dependentes / independentes" geralmente são feitas sobre uma matriz de amostra específica e se referem às correlações / dependências nas linhas (consulte, por exemplo, a resposta de @ ttnphns aqui ). O PCA produz uma matriz de dados transformada , em que linhas são observações e colunas são variáveis de PC. Ou seja, podemos ver como uma amostra e perguntar qual é a correlação da amostra entre as variáveis do PC. Esta matriz de correlação de amostra é obviamente dada por $\mathbf X$ $\mathbf U$ $\mathbf U$ $\mathbf U^\top \mathbf U=\mathbf I$ , o que significa que as correlações da amostra entre as variáveis do PC são zero. É isso que as pessoas querem dizer quando dizem que "o PCA diagonaliza a matriz de covariância" etc.

Conclusão 1: nas coordenadas do PCA, qualquer dado tem correlação zero.

Isso vale para os dois gráficos de dispersão acima. No entanto, é imediatamente óbvio que as duas variáveis PC e no (non-Gaussian) scatterplot esquerda não são independentes; mesmo tendo correlação zero, eles são fortemente dependentes e de fato relacionados por a . E, de fato, é sabido que não correlacionado não significa independente . $x$ $y$ $y\approx a(x-b)^2$

Pelo contrário, as duas variáveis PC e à direita (Gaussian) scatterplot parecem ser "praticamente independente". Computar informações mútuas entre elas (que é uma medida de dependência estatística: variáveis independentes têm zero informações mútuas) por qualquer algoritmo padrão produzirá um valor muito próximo de zero. Não será exatamente zero, porque nunca é exatamente zero para qualquer tamanho de amostra finito (a menos que ajustado); além disso, existem vários métodos para calcular informações mútuas de duas amostras, fornecendo respostas ligeiramente diferentes. Mas podemos esperar que qualquer método produza uma estimativa de informações mútuas que seja muito próxima de zero. $x$ $y$

Conclusão 2: nas coordenadas do PCA, os dados gaussianos são "praticamente independentes", o que significa que as estimativas padrão de dependência serão em torno de zero.

A questão, no entanto, é mais complicada, como mostra a longa cadeia de comentários. Com efeito, @whuber justamente salienta que as variáveis PCA e (colunas de ) deve ser estatisticamente dependente: as colunas têm de ter um comprimento de unidade e tem que ser ortogonais, e isto introduz uma dependência. Por exemplo, se algum valor na primeira coluna for igual a , o valor correspondente na segunda coluna deverá ser . $x$ $y$ $\mathbf U$ $1$ $0$

Isso é verdade, mas é praticamente relevante apenas para muito pequeno , como, por exemplo, (com após a centralização, existe apenas um PC). Para qualquer tamanho de amostra razoável, como mostrado na minha figura acima, o efeito da dependência será insignificante; colunas de são projeções (em escala) de dados gaussianos, portanto também são gaussianas, o que torna praticamente impossível que um valor esteja próximo de (isso exigiria que todos os outros elementos estivessem próximos de , o que dificilmente é distribuição gaussiana). $n$ $n=3$ $n=2$ $n=100$ $\mathbf U$ $1$ $n-1$ $0$

Conclusão 3: estritamente falando, para qualquer finito , os dados Gaussianos nas coordenadas do PCA são dependentes; no entanto, essa dependência é praticamente irrelevante para qualquer . $n$ $n\gg 1$

Podemos fazer isso preciso considerando o que acontece no limite de . No limite do tamanho infinito da amostra, a matriz de covariância da amostra é igual à matriz de covariância da população . Portanto, se o vetor de dados for amostrado de , as variáveis do PC serão (onde e são autovalores e autovetores de ) e $n \to \infty$ $\mathbf \Sigma$ $X$ $\vec X \sim \mathcal N(0,\boldsymbol \Sigma)$ $\vec Y = \Lambda^{-1/2}V^\top \vec X/(n-1)$ $\Lambda$ $V$ $\boldsymbol \Sigma$ $\vec Y \sim \mathcal N(0, \mathbf I/(n-1))$ . Ou seja, as variáveis de PC vêm de um gaussiano multivariado com covariância diagonal. Mas qualquer gaussiano multivariado com matriz de covariância diagonal se decompõe em um produto de gaussianos univariados, e esta é a definição de independência estatística :

\begin{aligned} N (0, d i a g (σ_{i}^{2})) & = \frac{1}{(2 π)^{k / 2} det (d i a g (σ_{i}^{2}))^{1 / 2}} \exp [- x^{⊤} d i a g (σ_{i}^{2}) x / 2] \\ = \frac{1}{(2 π)^{k / 2} (\prod_{i = 1}^{k} σ_{i}^{2})^{1 / 2}} \exp [- \sum_{i = 1}^{k} σ_{i}^{2} x_{i}^{2} / 2] \\ = \prod \frac{1}{(2 π)^{1 / 2} σ_{i}} \exp [- σ_{i}^{2} x_{i}^{2} / 2] \\ = \prod N (0, σ_{i}^{2}) . \end{aligned}

$\begin{align} \mathcal N(\mathbf 0,\mathrm{diag}(\sigma^2_i)) &= \frac{1}{(2\pi)^{k/2} \det(\mathrm{diag}(\sigma^2_i))^{1/2}} \exp\left[-\mathbf x^\top \mathrm{diag}(\sigma^2_i) \mathbf x/2\right]\\&=\frac{1}{(2\pi)^{k/2} (\prod_{i=1}^k \sigma_i^2)^{1/2}} \exp\left[-\sum_{i=1}^k \sigma^2_i x_i^2/2\right] \\&=\prod\frac{1}{(2\pi)^{1/2}\sigma_i} \exp\left[-\sigma_i^2 x^2_i/2\right] \\&= \prod \mathcal N(0,\sigma^2_i). \end{align}$

Conclusão 4: as variáveis PC assintoticamente ( ) dos dados gaussianos são estatisticamente independentes como variáveis aleatórias, e as informações mútuas da amostra fornecerão o valor da população zero. $n \to \infty$

Devo observar que é possível entender essa questão de maneira diferente (veja os comentários de @whuber): considerar toda a matriz uma variável aleatória (obtida da matriz aleatória através de uma operação específica) e perguntar se existem duas elementos específicos e a partir de duas colunas diferentes são estatisticamente independentes entre diferente de chama . Exploramos essa questão neste tópico posterior . $\mathbf U$ $\mathbf X$ $U_{ij}$ $U_{kl}$ $\mathbf X$

Aqui estão as quatro conclusões provisórias acima:

Nas coordenadas do PCA, qualquer dado tem correlação zero.
Nas coordenadas do PCA, os dados gaussianos são "praticamente independentes", o que significa que as estimativas padrão de dependência serão em torno de zero.
$n$ $n\gg 1$
$n \to \infty$

— ameba diz Restabelecer Monica
fonte

Você escreve "No entanto, se os dados são gaussianos multivariados, eles são realmente independentes". 'Eles' são os principais componentes e seus coeficientes? O que você quer dizer com PCA diagonaliza a matriz de covariância? Obrigado pela sua resposta!

— bill_e

S

$S$

U

$U$

Legal, obrigado! A combinação de sua resposta e esse comentário ajuda a esclarecer bastante as coisas para mim. Posso editar o seu comentário na sua resposta?

— bill_e

Eu ampliei a resposta incorporando o comentário; veja se você está feliz com isso agora.

— Ameba diz Reinstate Monica

Discussão interessante! Quando fiz a pergunta, meu pensamento sobre dependência estatística era "se você conhece PC1, é possível inferir PC2? Etc." Examinarei mais os testes de independência baseados em informações mútuas agora.

— bill_e