Eu estava lendo algumas anotações e diz que o PCA pode "esfolar os dados". O que eles definem para mim como "digitando os dados" é dividir cada dimensão pela raiz quadrada do valor próprio correspondente.
Estou assumindo que por "dimensão" eles significam cada vetor base no qual estamos projetando (ou seja, os vetores próprios para os quais estamos projetando). Então eu acho que eles estão fazendo:
onde é um dos vetores próprios (ou seja, um dos principais componentes). Então, com esse novo vetor, suponho que eles estejam projetando os dados brutos que temos, digamos para . Portanto, os pontos projetados agora seriam:
Eles afirmam que isso garante que todos os recursos tenham a mesma variação.
No entanto, nem tenho certeza se minha interpretação do que eles querem dizer com sphering está correta e queria verificar se estava. Além disso, mesmo que estivesse correto, qual é o sentido de fazer algo assim? Eu sei que eles afirmam que ele garante que todos tenham a mesma variação, mas, por que queremos fazer isso e como isso é possível?
ué o valor de vetores próprios e está relacionado aos valores brutos do PC.u'é chamado de carregamento e está relacionado aos valores de PC normalizados (variações iguais). Você pode ler minha resposta: stats.stackexchange.com/a/35653/3277 .