Como usar a análise de componentes principais para selecionar variáveis para regressão?

12

Atualmente, estou usando a análise de componentes principais para selecionar variáveis a serem usadas na modelagem. No momento, faço as medições A, B e C em meus experimentos - O que realmente quero saber é: Posso fazer menos medições e parar de gravar C e ou B para economizar tempo e esforço?

Acho que todas as três variáveis carregam muito no meu primeiro componente principal, responsável por 60% da variação nos meus dados. As pontuações dos componentes dizem que se eu adicionar essas variáveis em uma determinada proporção (aA + bB + cC). Posso obter uma pontuação no PC1 para cada caso no meu conjunto de dados e poderia usar essa pontuação como uma variável na modelagem, mas isso não me permite parar de medir B e C.

Se eu quadrático as cargas de A e B e C no PC1, acho que a variável A representa 65% da variação no PC1 e a variável B representa 50% da variação no PC1 e a variável C também 50%, ou seja, algumas da variação no PC1 contabilizada por cada variável A, B e C é compartilhada com outra variável, mas A sai por cima, contabilizando um pouco mais.

É errado pensar que eu poderia escolher apenas a variável A ou possivelmente (aA + bB, se necessário) para usar na modelagem porque essa variável descreve uma grande proporção da variação no PC1 e isso, por sua vez, descreve uma grande proporção da variação no os dados?

Qual abordagem você adotou no passado?

Variável única que carrega mais peso no PC1, mesmo que haja outros carregadores pesados?
Pontuação do componente no PC1 usando todas as variáveis, mesmo que todas sejam carregadeiras pesadas?

regression pca model-selection

— N26
fonte

14

Você não especificou em qual "modelagem" planeja, mas parece que você está perguntando sobre como selecionar variáveis independentes entre , e com o objetivo de (digamos) regredir uma quarta variável dependente nelas. $A$ $B$ $C$ $W$

Para ver que essa abordagem pode dar errado, considere três variáveis independentes normalmente distribuídas , e com variação de unidade. Para o verdadeiro modelo subjacente , escolha uma constante pequena , uma constante realmente minúscula e deixe a (variável dependente) (mais um pouco de erro independente de , e ). $X$ $Y$ $Z$ $\beta \ll 1$ $\epsilon \ll \beta$ $W = Z$ $X$ $Y$ $Z$

Suponhamos que as variáveis independentes que tem são , , e . Em seguida, e estão fortemente correlacionados (dependendo da variância do erro), porque cada um está próximo de um múltiplo de . No entanto, não está correlacionada com qualquer uma das ou . Como é pequeno, o primeiro componente principal de $A = X + \epsilon Y$ $B = X - \epsilon Y$ $C = \beta Z$ $W$ $C$ $Z$ $W$ $A$ $B$ $\beta$ $\{A, B, C\}$ é paralelo a com autovalor . e carregam muito nesse componente e não carrega porque é independente de (e ). No entanto, se você eliminar das variáveis independentes, deixando apenas e , estará descartando todas as informações sobre a variável dependente porque , e são independentes! $X$ $2 \gg \beta$ $A$ $B$ $C$ $X$ $Y$ $C$ $A$ $B$ $W$ $A$ $B$

Este exemplo mostra que para a regressão você deseja prestar atenção em como as variáveis independentes estão correlacionadas com a variável dependente; você não pode fugir apenas analisando os relacionamentos entre as variáveis independentes.

— whuber
fonte

1

Deve ser este

não

?

A = X + ϵ Y

$A = X + \epsilon Y$

Z + ϵ Y

$Z + \epsilon Y$

— shabbychef

@habby Sim, obrigado. (Eu tive que mudar todos os nomes de variáveis em um rascunho para coincidir com os nomes do OP e

— estragar tudo

4

Se você possui apenas 3 IVs, por que deseja reduzi-los?

Ou seja, sua amostra é muito pequena (para que 3 IVs corram demais)? Nesse caso, considere mínimos quadrados parciais

Ou as medidas são muito caras (então, no futuro, você gostaria de medir apenas um IV)? Nesse caso, eu consideraria analisar as diferentes regressões com cada IV separadamente e em conjunto.

Ou alguém no seu passado enfatizou demais o valor da parcimônia? Nesse caso, por que não incluir todos os 3 IVs?

— Peter Flom - Restabelece Monica
fonte

Como usar a análise de componentes principais para selecionar variáveis ​​para regressão?

Como usar a análise de componentes principais para selecionar variáveis para regressão?