PCA de dados não gaussianos

20

Tenho algumas perguntas rápidas sobre o PCA:

O PCA assume que o conjunto de dados é gaussiano?
O que acontece quando aplico um PCA a dados inerentemente não lineares?

Dado um conjunto de dados, o processo deve primeiro normalizar a média, definir a variação para 1, obter um SVD, reduzir a classificação e finalmente mapear o conjunto de dados para o novo espaço de classificação reduzida. No novo espaço, cada dimensão corresponde a uma "direção" de variação máxima.

Mas a correlação desse conjunto de dados no novo espaço sempre é zero ou isso é verdade apenas para dados que são inerentemente gaussianos?

Suponha que eu tenha dois conjuntos de dados, "A" e "B", onde "A" corresponde a pontos amostrados aleatoriamente retirados de um gaussiano, enquanto "B" corresponde a pontos amostrados aleatoriamente de outra distribuição (digamos Poisson).

Como o PCA (A) se compara ao PCA (B)?
Observando os pontos no novo espaço, como eu determinaria que o PCA (A) corresponde aos pontos amostrados de um gaussiano, enquanto o PCA (B) corresponde aos pontos amostrados de um Poisson?
A correlação dos pontos em "A" é 0?
A correlação de pontos em "B" também é 0?
Mais importante, estou fazendo a pergunta "certa"?
Devo examinar a correlação ou há outra métrica que devo considerar?

pca svd

— Vishal
fonte

2

Veja o apêndice sobre premissas do PCA neste documento .

— assumednormal

17

Você já tem algumas boas respostas aqui (+1 a ambos @ Cam.Davidson.Pilon e @MichaelChernick). Permitam-me destacar alguns pontos que me ajudam a pensar sobre esse assunto.

Primeiro, o PCA opera sobre a matriz de correlação. Assim, parece-me que a pergunta importante é se faz sentido usar uma matriz de correlação para ajudá-lo a pensar em seus dados. Por exemplo, a correlação produto-momento de Pearson avalia a relação linear entre duas variáveis; se suas variáveis estão relacionadas, mas não linearmente, a correlação não é uma métrica ideal para indexar a força do relacionamento. ( Aqui está uma boa discussão no currículo sobre correlação e dados não normais.)

Segundo, acho que a maneira mais fácil de entender o que está acontecendo com o PCA é simplesmente girar seus eixos. Você pode fazer mais coisas, é claro, e infelizmente o PCA se confunde com a análise fatorial (que definitivamente tem mais acontecendo). No entanto, o PCA antigo simples, sem sinos e assobios, pode ser pensado da seguinte forma:

você tem alguns pontos plotados em duas dimensões em uma folha de papel milimetrado;
você tem uma transparência com eixos ortogonais desenhados e um orifício na origem;
você centraliza a origem da transparência (ou seja, o orifício) sobre e coloca a ponta do seu lápis no orifício para mantê-lo no lugar; $(\bar x, \bar y)$
você gira a transparência até que os pontos (quando indexados de acordo com os eixos da transparência em vez dos eixos originais) não estejam correlacionados.

Essa não é uma metáfora perfeita para o PCA (por exemplo, não redimensionamos as variações para 1). Mas dá às pessoas a idéia básica. A questão agora é usar essa imagem para pensar em como seria o resultado se os dados não fossem gaussianos; isso ajudará você a decidir se vale a pena fazer esse processo. Espero que ajude.

— - Reinstate Monica
fonte

2

+1 (há muito tempo). Eu acho que essa é a melhor resposta neste tópico, espero que ela reúna mais uma votação para se tornar a mais votada também. Eu gosto da sua maneira de explicar o PCA com transparência, isso é legal.

— ameba diz Restabelecer Monica

A propósito, essa sua resposta inspirou minha recente resposta em nosso enorme tópico leigo do PCA: fiz esses gifs animados tendo sua analogia de transparência em mente.

— Ameba diz Reinstate Monica

Essa é uma ótima resposta, @amoeba. É muito melhor que isso.

— gung - Restabelece Monica

13

Posso dar uma solução parcial e mostrar uma resposta para o seu ~~segundo parágrafo~~terceira questão, relativa à correlação entre os novos dados. A resposta curta é não, os dados no novo espaço não estão correlacionados. Para ver, considere e como dois componentes principais únicos. Então e são duas dimensões no novo espaço dos dados, . $w_1$ $w_2$ $Xw_1$ $Xw_2$ $X$

C o v (X w_{1}, X w_{2}) = E [(X w_{1})^{T} (X w_{2})] - E [X w_{1}]^{T} E [X w_{2}]

${\rm Cov}( Xw_1, Xw_2 ) = E[ (Xw_1)^T(Xw_2) ] - E[Xw_1]^TE[Xw_2]$

w_{i}

$w_i$

X

$X$

w_{1}^{T} E [X^{T} X] w_{2} = V a r (X) w_{1}^{T} w_{2} = 0

$w_1^TE[X^TX]w_2 = {\rm Var}(X)w_1^Tw_2 = 0$

w_{i}

$w_i$

V a r (X)

$Var(X)$

$X$ $Xw$ $X$ $Xw$

$\alpha$

— Cam.Davidson.Pilon
fonte

7

Não há linearidade ou normalidade assumida no PCA. A idéia é apenas decompor a variação de um conjunto de dados p-dimensional em componentes ortogonais ordenados de acordo com a quantidade de variação explicada.

— Michael R. Chernick
fonte

2

Verdadeiro, mas "decompor a variação em um conjunto de dados p-dimensional em componentes ortogonais" não é muito útil quando existem dependências não lineares entre as variáveis, pois a ortogonalização geralmente era feita para que você possa argumentar que as dimensões não são relacionadas (o que é também relacionado à parte gaussiana da questão). Quando você está executando o PCA e planeja interpretar os resultados da maneira usual, há uma suposição subjacente de que os dados residem em um subespaço linear de menor dimensão .

— Macro

2

@ Macro Não exatamente. Eu diria que a suposição subjacente é que pelo menos a maior parte da variabilidade e, portanto, o padrão dos dados estão concentrados em algum espaço dimensional inferior. Consigo visualizar muito bem uma parábola em um espaço bidimensional com componentes ortogonais. Eu acho que formas não lineares podem ser visualizadas em duas ou três dimensões. Se os dados vierem de uma distribuição gaussiana multivariada, em algum subespaço os pontos devem parecer uma nuvem elipsoidal. A distribuição não precisa parecer um elipsóide para que sua visualização no subespaço dos PCs altos seja interessante.

— Michael R. Chernick

4

Eu qualificaria isso um pouco. Não há suposição de normalidade no PCA clássico ou no PCA por SVD. No entanto, os algoritmos EM para calcular o PCA com dados ausentes assumirão normalidade e linearidade.

— John John

Embora o caminho clássico para o PCA não precise de suposições, existe outro caminho para sua solução: o PCA probabilístico com 0 ruído de medição.

— precisa saber é

3

Lendo a página 7 aqui:

http://www.cs.princeton.edu/picasso/mats/PCA-Tutorial-Intuition_jp.pdf

eles observam que o PCA assume que a distribuição do que quer que esteja explicando pode ser descrita apenas por uma média (de zero) e variância, que eles dizem que só pode ser a distribuição Normal.

(Basicamente, além da resposta de Cam, mas não tenho reputação suficiente para comentar:)

— user3264325
fonte

1

O link que você forneceu ao tutorial de Shlens é a versão 1 do tutorial, mas a versão 3.02 (a versão final?) Está agora disponível e esse ponto específico foi removido. Além disso, essa pergunta foi feita exatamente sobre isso.

— Oren Milman

0

Tanto quanto eu sei, o PCA não assume a normalidade dos dados. Mas se for normalmente distribuído (em um sentido mais geral, simetricamente distribuído), o resultado será mais robusto. Como outras pessoas dizem, a chave é que o PCA é baseado na matriz do coeficiente de correlação de Pearson, cuja estimativa é afetada por valores discrepantes e distribuição distorcida. Portanto, em algumas análises envolvidas, como teste estatístico ou valor-p, você deve se preocupar mais com a satisfação da normalidade; mas em outras aplicações, como análise exploratória, você pode usá-lo, mas só tome cuidado ao fazer interpretações.

— KarlHuang
fonte

-1

Concordou com outras pessoas que disseram que os dados devem ser "normalmente" distribuídos. Qualquer distribuição se sobrepõe a uma distribuição normal se você a transformar. Se sua distribuição não for normal, os resultados que você obterá serão inferiores em comparação ao caso em que é normal, conforme declarado por alguns aqui ...

Você pode transformar sua distribuição, se precisar.
Você pode optar pelo PCA e usar a ICA (Independent Component Analysis).

Se você ler a referência na primeira resposta, na seção Apêndice, afirma que a suposição é uma distribuição Normal.

— Cinza
fonte