Por que a esfericidade diagnosticada pelo teste de Bartlett significa que um PCA é inadequado?


14

Entendo que o Teste de Bartlett se preocupa em determinar se suas amostras são de populações com variações iguais.

Se as amostras são de populações com variâncias iguais, falhamos em rejeitar a hipótese nula do teste e, portanto, uma análise de componentes principais é inadequada.

Não tenho certeza de onde está o problema com esta situação (ter um conjunto de dados homoskedastic). Qual é o problema de ter um conjunto de dados em que a distribuição subjacente de todos os seus dados seja a mesma? Só não vejo grande coisa se essa condição existir. Por que isso tornaria um PCA inadequado?

Não consigo encontrar nenhuma informação boa em nenhum lugar online. Alguém tem alguma experiência em interpretação por que esse teste é relevante para um PCA?

Respostas:


15

Em resposta ao título da pergunta.

1

Imagine agora que a nuvem multivariada é perfeitamente esférica (ou seja, sua matriz de covariância é proporcional à matriz de identidade). Então 1) quaisquer dimensões arbitrárias podem servir os componentes principais, portanto a solução PCA não é única; 2) todos os componentes têm as mesmas variações (valores próprios), portanto, o PCA não pode ajudar a reduzir os dados.

Imagine o segundo caso em que a nuvem multivariada é elipsóide com oblongo estritamente ao longo dos eixos das variáveis ​​(ou seja, sua matriz de covariância é diagonal: todos os valores são zero, exceto a diagonal). Então a rotação implicada pela transformação do PCA será zero; componentes principais são as próprias variáveis, apenas reordenadas e potencialmente revertidas. Este é um resultado trivial: nenhum PCA foi necessário para descartar algumas dimensões fracas para reduzir os dados.


1


13

Parece que existem dois testes chamados teste de Bartlett . O que você referenciou (1937) determina se suas amostras são de populações com variações iguais. Outra parece testar se a matriz de correlação para um conjunto de dados é a matriz de identidade (1951). Faz mais sentido que você não execute o PCA em dados com uma matriz de correlação de identidade, pois apenas recuperará suas variáveis ​​originais, pois elas já não estão correlacionadas. Compare, por exemplo,


2
+1 Isso resolve as confusões melhor que a outra resposta.
HelloWorld
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.