Normalmente, usamos o PCA como uma técnica de redução de dimensionalidade para dados em que casos são considerados iid
Pergunta: Quais são as nuances típicas na aplicação do PCA para dados dependentes e não-iid? Quais propriedades agradáveis / úteis do PCA mantidas para dados iid estão comprometidas (ou perdidas totalmente)?
Por exemplo, os dados podem ser uma série temporal multivariada, caso em que pode ser esperada autocorrelação ou heterocedasticidade condicional autoregressiva (ARCH).
Várias perguntas relacionadas à aplicação do PCA aos dados de séries temporais foram feitas antes, por exemplo, 1 , 2 , 3 , 4 , mas estou procurando uma resposta mais geral e abrangente (sem a necessidade de expandir muito em cada ponto individual).
Edit: Como observado por @ttnphns, o PCA em si não é uma análise inferencial. No entanto, pode-se estar interessado no desempenho da generalização da APC, ou seja, concentrando-se na contrapartida da população da APC da amostra. Por exemplo, conforme escrito em Nadler (2008) :
Assumindo que os dados fornecidos sejam uma amostra finita e aleatória de uma distribuição (geralmente desconhecida), uma questão teórica e prática interessante é a relação entre os resultados da amostra de PCA calculados a partir de dados finitos e os do modelo populacional subjacente.
Referências:
- Nadler, Boaz. "Resultados aproximados de amostras finitas para análise de componentes principais: uma abordagem de perturbação de matriz." The Annals of Statistics (2008): 2791-2817.