(Essa é uma pergunta simples) Recentemente, eu estou aprendendo a Análise de componentes principais e parece ter muitos problemas:
- É necessário transformar os dados em aproximadamente a mesma escala antes de aplicar o PCA, mas como a escala do recurso deve ser executada não é especificada. Estandardização? Dimensionamento para o comprimento da unidade? Transformação de log? Transformação Box-Cox? Acredito que todos eles funcionam de alguma forma, mas eles respondem a perguntas diferentes, e não é trivial descobrir a transformação dada a um problema.
- Para executar a PCA, os valores próprios e os vetores próprios devem ser calculados, mas os sinais dos vetores próprios são indeterminados. À primeira vista, o SVD poderia ser uma boa solução, pois fornece o mesmo resultado em diferentes implementações. No entanto, pelo que entendi, o resultado do SVD é apenas uma escolha arbitrária, mas reproduzível de vetores próprios.
- Componentes principais são combinações lineares de variáveis, mas elas fazem sentido? Quero dizer, você não pode adicionar a temperatura do corpo de um macaco a dez vezes o comprimento da cauda, porque eles são de unidades diferentes. (Falando da unidade, qual sistema de unidades você deve usar é outro aspecto do meu primeiro ponto)
- Ao tentar interpretar os componentes principais, você deve inspecionar o carregamento (coeficiente) do componente no ésimo elemento ou sua correlação ? Rencher (1992) recomenda apenas analisar os coeficientes, mas, tanto quanto eu sei, não há consenso sobre esse assunto.
Em resumo, o PCA é um método estatístico (ou discutivelmente matemático) que me parece bastante imaturo, pois introduz numerosas subjetividades e preconceitos ao longo de todo o processo. No entanto, continua sendo um dos métodos de análise multivariada mais amplamente utilizados. Por que é isso? Como as pessoas superam os problemas que levantei? Eles estão cientes deles?
Referências:
Rencher, AC "Interpretação de funções discriminantes canônicas, variáveis canônicas e componentes principais". The American Statistician, 46 (1992), 217-225.