Eu tenho um conjunto de dados com 11 variáveis e PCA (ortogonal) foi feito para reduzir os dados. Decidir sobre o número de componentes para mantê-lo ficou evidente para mim pelo meu conhecimento sobre o assunto e o gráfico de seixos (veja abaixo) que dois componentes principais (PCs) eram suficientes para explicar os dados e os componentes restantes eram apenas menos informativos.
Scree plot com análise paralela: autovalores observados (verde) e autovalores simulados com base em 100 simulações (vermelho). O gráfico Scree sugere 3 PCs, enquanto o teste paralelo sugere apenas os dois primeiros.
Como você pode ver, apenas 48% da variação pode ser capturada pelos dois primeiros PCs.
As observações de plotagem no primeiro plano realizado pelos 2 primeiros PCs revelaram três grupos diferentes usando agrupamento aglomerado hierárquico (HAC) e agrupamento K-means. Esses três grupos mostraram-se muito relevantes para o problema em questão e também foram consistentes com outras descobertas. Portanto, exceto pelo fato de que apenas 48% da variação foi capturada, todo o resto foi tremendamente bom.
Um dos meus dois revisores disse: não se pode confiar muito nessas descobertas, pois apenas 48% da variação pode ser explicada e é menor do que o necessário.
Pergunta
Existe algum valor necessário de quanta variação deve ser capturada pelo PCA para ser válida? Não depende do conhecimento e da metodologia do domínio em uso? Alguém pode julgar o mérito de toda a análise apenas com base no mero valor da variação explicada?
Notas
- Os dados são 11 variáveis de genes medidos por uma metodologia muito sensível em biologia molecular chamada Reação em Cadeia Polimerase Quantitativa em Tempo Real (RT-qPCR).
- As análises foram feitas usando R.
- As respostas dos analistas de dados com base em sua experiência pessoal trabalhando em problemas da vida real nos campos de análise de microarranjos, quimiometria, análises espectrométricas ou similares são muito apreciadas.
- Por favor, considere apoiar você responder com referências, tanto quanto possível.