Posso fazer um PCA em medidas repetidas para redução de dados?

13

Eu tenho 3 ensaios cada um com 87 animais em cada um dos 2 contextos (alguns dados ausentes; nenhum dado ausente = 64 animais). Dentro de um contexto, tenho muitas medidas específicas (hora de entrar, número de vezes que retornam para abrigo, etc), assim que eu quero desenvolver 2 a 3 contagens de comportamento compostos que descrevem o comportamento nesse contexto (chamá-los C1, C2, C3). Eu quero um C1que signifique o mesmo nos três ensaios e 87 animais, para que eu possa fazer uma regressão para examinar o efeito da idade, sexo, linhagem e animal individual no comportamento. Depois, quero examinar como C1se relaciona com as pontuações de comportamento no outro contexto, dentro da idade específica. (Aos 1 anos, a atividade no contexto 1 prediz fortemente a atividade no contexto 2?)

Se isso não fosse medidas repetidas, um PCA funcionaria bem - faça um PCA nas várias medidas de um contexto e use PC1, PC2 etc. para examinar as relações (correlações de Spearman) entre PC1 em um contexto e PC1 (ou 2 ou 3) no outro contexto. O problema são as medidas repetidas, que caem na pseudo-replicação. Eu tive um revisor categoricamente a dizer que não, mas não consigo encontrar referências claras sobre se isso é problemático ao fazer a redução de dados.

$0.5\cdot$ $+\ 0.5\cdot$ $0.28\cdot$ $+\ 0.63\cdot$ $+\ 0.02\cdot$ tempo total ...), que é pelo menos informado pelas minhas múltiplas medidas, em vez de supor que o tempo para entrar é uma característica geralmente informativa e representativa?

(Observe que não estou interessado na estrutura subjacente das medidas ... minhas perguntas são sobre o que interpretamos como comportamentos específicos do contexto. "Se eu usei o contexto 1 e concluí que Harry é ativo em comparação com outros animais, eu vejo Harry está ativo no contexto 2? Se ele muda o que interpretamos como atividade no contexto 1 à medida que envelhece, ele também muda sua atividade no contexto 2?)

Eu observei o PARAFAC e o SEM, e não estou convencido de que qualquer uma dessas abordagens seja melhor ou mais apropriada para o tamanho da minha amostra. Alguém pode pesar? Obrigado.

repeated-measures pca dimensionality-reduction

— Leann
fonte

Eu entendi que você corrigiu que possui 2 fatores dentro do sujeito: 1) contexto, que difere de alguma condição experimental (por exemplo, experimento interno versus experimento externo), 2) ensaio, que é simplesmente uma repetição, uma tentativa de experimento. E você gostaria de fazer um PCA em cada uma das condições, mas impede que você tenha feito não uma, mas várias tentativas do experimento.

— ttnphns

Os dois contextos são dois testes separados, e as medidas tomadas em cada um são diferentes. Dito isto, sim, você entende minha situação.

— Leann

Que tal evitar o problema e executar um PCA nos meios em todas as três tentativas?

— Gala

7

Você pode procurar na Análise de múltiplos fatores . Isso pode ser implementado em R com o FactoMineR.

ATUALIZAR:

Para elaborar, Leann estava propondo - ainda há muito tempo - conduzir um PCA em um conjunto de dados com medidas repetidas. Se eu entendi a estrutura de seu conjunto de dados corretamente, em um determinado "contexto" ela tinha um animalx matriz de "medida específica" de (hora de entrar, número de vezes que volta ao abrigo, etc.). Cada um dos 64 animais (aqueles sem falta de obs.) Foram seguidos três vezes. Digamos que ela tinha 10 'medidas específicas', de modo que ela teria, então, três de 64 × 10 matrizes no comportamento dos animais (que podemos chamar as matrizes X1, X2,X3 ). Para executar um PCA nas três matrizes simultaneamente, ela teria que 'vincular' as três matrizes (por exemplo,PCA(rbind(X1,X2,X3))) Mas isso ignora o fato de que a primeira e a 64ª observação estão no mesmo animal. Para contornar esse problema, ela pode 'vincular' as três matrizes e executá-las por meio de uma análise de múltiplos fatores. O MFA é uma maneira útil de analisar vários conjuntos de variáveis medidas nos mesmos indivíduos ou objetos em diferentes momentos no tempo. Ela poderá extrair os principais componentes do MFA da mesma maneira que em um PCA, mas terá uma única coordenada para cada animal. Os objetos animais agora terão sido colocados em um espaço multivariado de compromisso delimitado por suas três observações.

Ela seria capaz de executar a análise usando o pacote FactoMineR em R. O código de exemplo seria algo como:

df=data.frame(X1, X2, X3)
mfa1=MFA(df, group=c(10, 10, 10), type=c("s", "s", "s"), 
 name.group=c("Observation 1", "Observation 2", "Observation 3")) 
 #presuming the data is quantitative and needs to be scaled to unit variance

Além disso, em vez de extrair os três primeiros componentes do MFA e submetê-los à regressão múltipla, ela pode pensar em projetar suas variáveis explicativas diretamente no MFA como 'tabelas suplementares' (consulte ?FactoMineR). Outra abordagem seria calcular uma matriz de distância euclidiana das coordenadas do objeto a partir do MFA (por exemplo dist1=vegdist(mfa1$ind$coord, "euc")) e colocá-la em uma RDA com dist1uma função das variáveis específicas do animal (por exemplo, rda(dist1~age+sex+pedigree)usando o pacote vegan).

— Kyle
fonte

2

Olá Kyle, obrigado pela sua resposta. No entanto, respostas que consistem essencialmente em pouco mais que um link ou que têm apenas uma frase não são geralmente consideradas respostas, mas comentários. Em particular, as respostas somente de link sofrem rot-link, portanto, as respostas devem ter informações suficientes para serem úteis, mesmo que o link não funcione mais. Você pode, por favor, expandir um pouco mais sua resposta, talvez dando um resumo muito breve do que é / como se relaciona com a análise fatorial de maneira mais geral?

— Glen_b -Reinstala Monica

(+1) Sei que este é um post antigo, mas essa resposta é muito útil! Talvez a referência deva ser completamente adicionada caso o link acabe: Abdi Hervé, Williams Lynne J., Valentin Domininique. Análise de múltiplos fatores: análise de componentes principais para conjuntos de dados multitablos e multibloqueio. WIREs Comp Stat 2013, 5: 149-179. doi: 10.1002 / wics.1246

— Frans Rodenburg

4

É comum usar o PCA ao analisar medidas repetidas (por exemplo, ele é usado para analisar dados de vendas, preços de ações e taxas de câmbio). A lógica é conforme você articula (ou seja, a justificativa é que o PCA é uma ferramenta de redução de dados e não uma ferramenta inferencial )

Uma publicação de um estatístico bastante bom é: Bradlow, ET (2002). " Explorando conjuntos de dados de medidas repetidas para os principais recursos usando a Análise de Componentes Principais " . Journal of Research in Marketing 19: 167-179.

— Tim
fonte