Normalizando todas as variáveis ​​vs. usando a opção scale = TRUE no prcomp em R


7

Qual é a diferença entre

  1. normalizando as variáveis ​​e fazendo PCA;
  2. usando a scale=TRUEopção (sem normalizar as variáveis) na prcompfunção em R?

Eu apaguei sua última frase / parágrafo porque era muito difícil de entender, enquanto sua pergunta já é muito clara sem ela.
Ameba

Respostas:


9

Não faz diferença. Digite debug(prcomp)antes de executar prcomp. A terceira linha da função lê: x <- scale(x, center = center, scale = scale.); ie você escalará dentro da função se definir scale = TRUEdurante a chamada de função ou terá o dimensionamento feito originalmente por você.

Dito isto, ao aplicar o PCA em geral, é uma boa ideia escalar suas variáveis. Caso contrário, a magnitude de certas variáveis ​​domina as associações entre as variáveis ​​da amostra. A menos que todas as suas variáveis ​​sejam registradas na mesma escala e / ou a diferença de magnitudes variáveis ​​seja de interesse, sugiro que você normalize seus dados antes do PCA. Esta questão foi revisada várias vezes no CV, por exemplo. 1 , 2 , 3 .


E se todas as suas variáveis ​​estiverem na mesma escala?
Jack Armstrong

Provavelmente, não precisamos da normalização nesse caso, porque as variáveis ​​serão comparáveis ​​em suas escalas originais. Leia os tópicos vinculados para obter mais detalhes.
usεr11852
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.