Usando análise de componentes principais vs análise de correspondência


9

Estou analisando um conjunto de dados sobre comunidades entre marés. Os dados são cobertura percentual (de algas, cracas, mexilhões etc.) em quadrantes. Estou acostumado a pensar na análise de correspondência (CA) em termos de contagem de espécies e na análise de componentes principais (PCA) como algo mais útil para tendências ambientais lineares (e não espécies). Realmente não tive sorte em descobrir se o PCA ou CA seria o melhor ajuste para a porcentagem de cobertura (não consigo encontrar nenhum documento), e nem tenho certeza de como seria distribuído algo que é limitado a 100% ?

Eu estou familiarizado com a diretriz aproximada de que, se o comprimento do primeiro eixo da análise de correspondência prejudicada (DCA) for maior que 2, você poderá assumir com segurança que a CA deve ser usada. O comprimento do eixo 1 do DCA era de 2,17, o que não acho útil.


3
Tanto o PCA quanto o CA estão relacionados e ambos podem ser baseados no algoritmo SVD. A diferença formal fundamental (não mencionada na resposta profunda de @ Gavin) é que o PCA decompõe relações apenas entre colunas (por exemplo, decompondo sua matriz de covariância), tratando linhas como "casos"; enquanto a CA decompõe colunas e linhas simultaneamente, tratando-as simetricamente, como "categorias" de tabulação cruzada. Portanto, o biplot deixado pela CA e o quase biplot (cargas + escores) que poderiam ser plotados após o PCA fornecem informações conceitualmente bastante diferentes.
ttnphns

Respostas:


9

O PCA trabalha nos valores em que a CA trabalha nos valores relativos. Ambos são bons para dados de abundância relativa do tipo que você menciona (com uma ressalva importante, veja mais adiante). Com% de dados, você já tem uma medida relativa, mas ainda haverá diferenças. Pergunte a si mesmo

  • você deseja enfatizar o padrão nas espécies / táxons abundantes (ou seja, aqueles com grande% de cobertura), ou
  • você quer se concentrar nos padrões de composição relativa?

Se o primeiro, use o PCA. Se o último usar CA. O que quero dizer com as duas perguntas é: você gostaria

A = {50, 20, 10}
B = { 5,  2,  1}

ser considerado diferente ou igual? Ae Bsão duas amostras e os valores são a cobertura% de três táxons mostrados. (Este exemplo acabou mal, suponha que exista um terreno descoberto! ;-) O PCA consideraria esses itens muito diferentes por causa da distância euclidiana usada, mas a CA consideraria essas duas amostras como sendo muito semelhantes porque têm o mesmo perfil relativo.

A grande ressalva aqui é a natureza composicional fechada dos dados. Se você tem alguns grupos (areia, silte, argila, por exemplo) que somam 1 (100%), nenhuma das abordagens está correta e você pode passar para uma análise mais apropriada por meio do PCA de proporção de log de Aitchison, projetado para composição composicional fechada. dados. (O IIRC para fazer isso é necessário centralizar por linhas e colunas e transformar os dados pelos logs.) Existem outras abordagens também. Se você usar R, então um livro que seria útil é Analisando composicional de dados com R .


Como sempre, uma resposta realmente excelente, Gavin. Obrigado! Isso esclarece bastante as coisas e eu usarei o PCA então. Dado que a comunidade entremarés é tridimensional, a porcentagem de cobertura foi realmente 100% em alguns casos quando os organismos cresceram um sobre o outro. Esta não é a forma composicional fechada da qual você está falando, certo?
HFBrowning

Não, não é disso que ele está falando. Por fechada Eu acredito que ele significa um sistema em que, com três espécies A, B, C, você tem% C = 100% -% B -% A
Pertinax

e o DCA?
Darwin PC

O DCA é uma versão desarrumada da CA. Portanto, os mesmos princípios gerais se aplicam a ele. O DCA está fazendo uma tortura estranha dos dados e acho que não precisamos nos preocupar com isso como um método em nossa caixa de ferramentas hoje, mas as opiniões de outros irão variar.
Gavin Simpson
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.