Como branquear os dados usando a análise de componentes principais?


18

Eu quero transformar meus dados X modo que as variações sejam uma e as covariâncias sejam zero (ou seja, eu quero branquear os dados). Além disso, os meios devem ser zero.

Sei que chegarei lá fazendo a padronização Z e a transformação PCA, mas em que ordem devo fazê-las?

Devo acrescentar que a transformação de clareamento composta deve ter o formato .xWx+b

Existe um método semelhante ao PCA que faz exatamente essas duas transformações e me fornece uma fórmula do formulário acima?


(Meu primeiro comentário foi baseado na leitura incorreta da sua pergunta.) O PCA fornece zero covariâncias; você pode padronizar os PCs posteriormente, se desejar. Parece uma coisa estranha de se fazer, mas você pode fazê-lo.
Nick Cox

@NickCox Talvez pareça estranho porque os dados transformados são esféricos, o que parece pouco informativo. No entanto, é a transformação que preciso conhecer, e não o resultado final. Ainda não sei como seria a transformação. Ainda estou lendo no PCA.
Angelorf

Respostas:


31

Primeiro, você obtém o zero médio subtraindo a média .μ=1Nx

Segundo, você obtém as covariâncias zero ao fazer o PCA. Se é a matriz de covariância de seus dados, o PCA equivale a executar uma composição automática , onde está uma matriz de rotação ortogonal composta por vetores próprios de e é uma matriz diagonal com valores próprios na diagonal. Matrix fornece uma rotação necessária para correlacionar os dados (ou seja, mapeia os recursos originais para os principais componentes).ΣΣ=vocêΛvocêvocêΣΛvocê

Terceiro, após a rotação, cada componente terá variação dada por um valor próprio correspondente. Portanto, para tornar as variações iguais a , você precisa dividir pela raiz quadrada de .1Λ

No conjunto, a transformação de clareamento é . Você pode abrir os colchetes para obter o formulário que está procurando.xΛ-1/2você(x-μ)


Atualizar. Consulte também este tópico posterior para obter mais detalhes: Qual é a diferença entre o clareamento de ZCA e clareamento de PCA?


2
Eu acho que você precisa dividir pelas raízes quadradas dos autovalores, pois é uma questão de dimensionar por SD, não por variação.
Nick Cox

@ NickCox: sim, é claro que você está certo. Corrigi minha resposta. Obrigado!
Ameba diz Reinstate Monica

1
Eu verifiquei empiricamente a fórmula. Obrigado por me ajudar!
Angelorf
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.