Qual é a diferença entre
- normalizando as variáveis e fazendo PCA;
- usando a
scale=TRUEopção (sem normalizar as variáveis) naprcompfunção em R?
Qual é a diferença entre
scale=TRUEopção (sem normalizar as variáveis) na prcompfunção em R?Respostas:
Não faz diferença. Digite debug(prcomp)antes de executar prcomp. A terceira linha da função lê: x <- scale(x, center = center, scale = scale.); ie você escalará dentro da função se definir scale = TRUEdurante a chamada de função ou terá o dimensionamento feito originalmente por você.
Dito isto, ao aplicar o PCA em geral, é uma boa ideia escalar suas variáveis. Caso contrário, a magnitude de certas variáveis domina as associações entre as variáveis da amostra. A menos que todas as suas variáveis sejam registradas na mesma escala e / ou a diferença de magnitudes variáveis seja de interesse, sugiro que você normalize seus dados antes do PCA. Esta questão foi revisada várias vezes no CV, por exemplo. 1 , 2 , 3 .