Existe um teste / técnica / método para comparar decomposições de componentes principais entre amostras?

8

Existe alguma maneira metódica de comparar as direções, magnitudes, etc, dos resultados do PCA para diferentes amostras coletadas da mesma população?

Estou deixando a natureza do teste deliberadamente vaga, porque gostaria de ouvir todas as várias possibilidades ... por exemplo, pode haver (e estou especulando aqui) um teste comparando os tamanhos dos primeiros componentes principais ou um teste comparando as direções dos componentes principais ou há algum tipo de medida de distância entre os resultados do PCA e uma estatística de teste para sua igualdade.

Quanto a um caso de uso, não tenho em mente. Apenas por curiosidade, talvez como uma técnica exploratória.

— shadowtalker
fonte

Você está imaginando dois conjuntos de amostras preenchendo o mesmo espaço (ou seja, tendo os mesmos recursos)? Então, basicamente, duas nuvens diferentes de pontos, isso está correto? Você supõe que as nuvens tenham o mesmo número de pontos, ou não necessariamente?

— Ameba

Sim, desculpe, estas são duas amostras da mesma população. Se for uma resposta diferente para amostras de tamanhos desiguais, eu gostaria de saber sobre isso.

— shadowtalker

A pesquisa no Google com o termo "análise fatorial multigrupo" fornece muitos links, é uma área ampla (e acho que bem) discutida. Se bem me lembro há mesmo algum software especializado

— Gottfried Helms

6

$n$ $d$

Não acho que haja testes padrão para esse fim. Para qualquer pergunta específica, é provável que seja possível encontrar algum método ou teste, mas sua pergunta é um pouco ampla demais para tentar apresentar os possíveis testes.

$\theta$ $2n$ $n$ $\theta$ $10\:000$ $\theta$ $\theta$ $p$

A mesma abordagem pode ser usada para comparar, por exemplo, maiores valores próprios. Ou os menores autovalores. Ou, na verdade, quase tudo o que você deseja comparar.

Além disso, se você quiser uma estatística de teste para "igualdade de resultados de PCA" em geral, talvez seja necessário usar um teste comparando duas matrizes de covariância (sem fazer nenhum PCA). Por exemplo, o teste M de Box (que é uma generalização multivariada de um teste de Bartlett para igualdade de variâncias).

— ameba
fonte

+1 que ele provavelmente faz mais sentido para comparar as matrizes de covariância diretamente

— Andrew M

1

Relendo sua resposta, ocorreu-me que o ângulo médio entre os eixos principais correspondentes é provavelmente algo como o que eu estava procurando.

— shadowtalker

1

digamos que você tenha o conjunto de amostras2 1 e 2 e encontrou seus componentes de princípio 1 a enésimo, capazes de mapear 90% das informações (n pode ser diferente para ambos e 90 é arbitrário).

Você pode calcular quanta informação no conjunto1 pode ser retida após o mapeamento para o espaço de componentes principais e vice-versa. Defina um limite para a quantidade de informações que você deseja perder antes de declarar que o novo conjunto é diferente o suficiente para merecer seus próprios componentes principais.

— Dan Erez
fonte