Atualmente, estou usando a análise de componentes principais para selecionar variáveis a serem usadas na modelagem. No momento, faço as medições A, B e C em meus experimentos - O que realmente quero saber é: Posso fazer menos medições e parar de gravar C e ou B para economizar tempo e esforço?
Acho que todas as três variáveis carregam muito no meu primeiro componente principal, responsável por 60% da variação nos meus dados. As pontuações dos componentes dizem que se eu adicionar essas variáveis em uma determinada proporção (aA + bB + cC). Posso obter uma pontuação no PC1 para cada caso no meu conjunto de dados e poderia usar essa pontuação como uma variável na modelagem, mas isso não me permite parar de medir B e C.
Se eu quadrático as cargas de A e B e C no PC1, acho que a variável A representa 65% da variação no PC1 e a variável B representa 50% da variação no PC1 e a variável C também 50%, ou seja, algumas da variação no PC1 contabilizada por cada variável A, B e C é compartilhada com outra variável, mas A sai por cima, contabilizando um pouco mais.
É errado pensar que eu poderia escolher apenas a variável A ou possivelmente (aA + bB, se necessário) para usar na modelagem porque essa variável descreve uma grande proporção da variação no PC1 e isso, por sua vez, descreve uma grande proporção da variação no os dados?
Qual abordagem você adotou no passado?
- Variável única que carrega mais peso no PC1, mesmo que haja outros carregadores pesados?
- Pontuação do componente no PC1 usando todas as variáveis, mesmo que todas sejam carregadeiras pesadas?