Propriedades do PCA para observações dependentes

Normalmente, usamos o PCA como uma técnica de redução de dimensionalidade para dados em que casos são considerados iid

Pergunta: Quais são as nuances típicas na aplicação do PCA para dados dependentes e não-iid? Quais propriedades agradáveis / úteis do PCA mantidas para dados iid estão comprometidas (ou perdidas totalmente)?

Por exemplo, os dados podem ser uma série temporal multivariada, caso em que pode ser esperada autocorrelação ou heterocedasticidade condicional autoregressiva (ARCH).

Várias perguntas relacionadas à aplicação do PCA aos dados de séries temporais foram feitas antes, por exemplo, 1 , 2 , 3 , 4 , mas estou procurando uma resposta mais geral e abrangente (sem a necessidade de expandir muito em cada ponto individual).

Edit: Como observado por @ttnphns, o PCA em si não é uma análise inferencial. No entanto, pode-se estar interessado no desempenho da generalização da APC, ou seja, concentrando-se na contrapartida da população da APC da amostra. Por exemplo, conforme escrito em Nadler (2008) :

Assumindo que os dados fornecidos sejam uma amostra finita e aleatória de uma distribuição (geralmente desconhecida), uma questão teórica e prática interessante é a relação entre os resultados da amostra de PCA calculados a partir de dados finitos e os do modelo populacional subjacente.

Referências:

Nadler, Boaz. "Resultados aproximados de amostras finitas para análise de componentes principais: uma abordagem de perturbação de matriz." The Annals of Statistics (2008): 2791-2817.

— Richard Hardy
fonte

Apenas para nota. O PCA em si não é uma análise inferencial. É uma transformação de conjunto de dados multivariado de números; seu núcleo é apenas svd ou eigendecomposition. Portanto, ele não assume a independência da observação. Pressupostos surgem quando usamos o PCA como uma ferramenta estatística para analisar amostras de populações. Mas eles não são suposições da PCA. Por exemplo, testar a esfericidade para decidir se o PCA é justificado para reduzir os dados requer independência, e o teste pode parecer um teste de suposição "dentro do PCA", mas na verdade é um teste "externo".

— ttnphns

@ttnphns, muito bons pontos, obrigado. Se você vir uma maneira elegante de editar minha postagem, sinta-se à vontade para. Eu também pensarei nisso.

— Richard Hardy

Richard, sua pergunta é boa e importante (+1). Talvez eu prefira reformulá-lo um pouco da seguinte maneira: "Geralmente usamos o PCA como uma redução de dimensionalidade para dados em que casos são considerados supostos ... Quais são as nuances típicas na aplicação do PCA para dados de séries temporais em que casos (tempo pontos) são interdependentes do atraso ...? "

— ttnphns

@amoeba, certo. Mas dificilmente paramos apenas de obter as cargas dos PCs. Nas etapas que normalmente seguem o PCA, do que devemos estar cientes sob a não-onidez? Espero que uma resposta seja melhor que a pergunta (em sua formulação atual). Se você olhar para ele de maneira vaga / criativa, talvez possa apresentar alguns bons pontos.

— Richard Hardy

O PCA comum respeita apenas associações "horizontais" (ou seja, entre colunas) e ignora "vertical" (entre casos): a matriz de covariância das colunas é a mesma se você embaralhar a ordem dos casos. Se isso pode ser chamado de "nenhuma suposição para relações seriais de caso" ou "suposição para casos independentes" é uma questão de gosto. A suposição iid é o padrão na análise de dados e, portanto, métodos que simplesmente não prestam atenção especial à ordem dos casos, como o PCA, podem ser imputados ao "suporte silencioso" à suposição iid.

— ttnphns

Presumivelmente, você pode adicionar o componente de tempo como um recurso adicional aos seus pontos de amostra, e agora eles são iid? Basicamente, os pontos de dados originais estão condicionados ao tempo:

p (x_{Eu} ∣ t_{Eu}) \neq p (x_{Eu})

$p(\mathbf{x}_i \mid t_i) \ne p(\mathbf{x}_i)$

Mas, se definirmos , teremos: $\mathbf{x}_i' = \{\mathbf{x}_i, t_i\}$

p (x_{Eu}^{'} ∣ t_{Eu}) = p (x_{Eu}^{'})

$p(\mathbf{x}'_i \mid t_i) = p(\mathbf{x}'_i)$

... e as amostras de dados agora são mutuamente independentes.

Na prática, ao incluir o tempo como um recurso em cada ponto de dados, o PCA pode ter como resultado que um componente simplesmente aponte no eixo do recurso de tempo. Porém, se algum recurso estiver correlacionado ao recurso de hora, um componente poderá consistir em um ou mais desses recursos, bem como no recurso de hora.

— Hugh Perkins
fonte

Obrigado pela resposta. Esse seria um caso muito especial em que o tempo entra linearmente. Um fenômeno mais difundido é, por exemplo, a autocorrelação, onde o tempo em si não desempenha um papel como recurso.

— Richard Hardy

x_{t}

$x_t$

θ

$\theta$

x_{t - 1}

$x_{t-1}$

x_{t}

$x_t$

x_{t - 1}

$x_{t-1}$

θ

$\theta$

x_{t - 1}

$x_{t-1}$

x_{t - 1}

$x_{t-1}$