A seleção de um número "apropriado" de componentes no PCA pode ser executada com elegância com a Análise Paralela (PA) da Horn. Os documentos mostram que esse critério supera consistentemente as regras práticas, como o critério do cotovelo ou a regra de Kaiser. O pacote R "paran" possui uma implementação de PA que requer apenas alguns cliques do mouse.
Obviamente, quantos componentes você retém dependem dos objetivos da redução de dados. Se você deseja apenas manter a variação "significativa", o PA fornecerá uma redução ideal. Se você deseja minimizar a perda de informações dos dados originais, no entanto, você deve reter componentes suficientes para cobrir 95% da variação explicada. Obviamente, isso manterá muito mais componentes que o PA, embora para conjuntos de dados de alta dimensão, a redução de dimensionalidade ainda seja considerável.
Uma observação final sobre o PCA como um problema de "seleção de modelo". Não concordo plenamente com a resposta de Peter. Vários documentos reformularam o PCA como um problema do tipo regressão, como o Sparse PCA, o Sparse Probabilistic PCA ou o ScotLASS. Nestas soluções PCA "baseadas em modelo", as cargas são parâmetros que podem ser configurados para 0 com termos de penalidade apropriados. Presumivelmente, nesse contexto, também seria possível calcular estatísticas do tipo AIC ou BIC para o modelo em consideração.
Essa abordagem poderia, teoricamente, incluir um modelo em que, por exemplo, dois PCs sejam irrestritos (todas as cargas diferentes de zero), versus um modelo em que PC1 é irrestrita e PC2 tenha todas as cargas definidas como 0. Isso seria equivalente a inferir se o PC2 é redundante no todo.
Referências (PA) :
- Dinno, A. (2012). paran: Teste de Horn dos principais componentes / fatores. Pacote R versão 1.5.1. http://CRAN.R-project.org/package=paran
- Horn JL 1965. Uma justificativa e um teste para o número de fatores na análise fatorial. Psychometrika . 30: 179-185
- Hubbard, R. & Allen SJ (1987). Uma comparação empírica de métodos alternativos para extração de componentes principais. Journal of Business Research, 15 , 173-190.
- Zwick, WR & Velicer, WF 1986. Comparação de cinco regras para determinar o número de componentes a reter. Boletim Psicológico. 99 : 432-442