Estou tentando entender o uso do PCA em um artigo recente em uma revista intitulado "Mapeando a atividade cerebral em escala com computação em cluster" Freeman et al., 2014 (pdf gratuito disponível no site do laboratório ). Eles usam o PCA em dados de séries temporais e usam os pesos do PCA para criar um mapa do cérebro.
Os dados são dados de imagem com média de avaliação, armazenados como uma matriz (chamada no artigo) com voxels (ou locais de imagem no cérebro) points (a duração de um único estimulação para o cérebro). N× t
Eles usam o SVD resultante em ( indicando a transposição da matriz ).V⊤V
Os autores afirmam que
Os componentes principais (as colunas de ) são vetores de comprimento , e as pontuações (as colunas de ) são vetores de comprimento (número de voxels), descrevendo a projeção de cada voxel na direção dada pelo componente correspondente, formando projeções no volume, ou seja, mapas do cérebro inteiro.T L n
Portanto, os PCs são vetores de comprimento . Como posso interpretar que o "primeiro componente principal explica a maior variação", como é comumente expresso nos tutoriais do PCA? Começamos com uma matriz de muitas séries temporais altamente correlacionadas - como uma única série temporal de PC explica a variação na matriz original? Entendo toda a coisa "rotação de uma nuvem gaussiana de pontos para o eixo mais variado", mas não tenho certeza de como isso se relaciona com as séries temporais. O que os autores querem dizer com direção quando afirmam: "as pontuações (as colunas de ) são vetores de comprimento n (número de voxels), descrevendo a projeção de cada voxel na direção dada pelo componente correspondente "? Como um curso do componente principal pode ter uma direção?
Para ver um exemplo das séries temporais resultantes das combinações lineares dos componentes principais 1 e 2 e o mapa cerebral associado, vá para o link a seguir e passe o mouse sobre os pontos no gráfico XY.
Minha segunda pergunta está relacionada às trajetórias (espaço de estado) que eles criam usando as pontuações dos componentes principais.
Eles são criados com base nas primeiras 2 pontuações (no caso do exemplo "optomotor" que descrevi acima) e projetamos as tentativas individuais (usadas para criar a matriz média de tentativas descrita acima) no subespaço principal pela equação:
Como você pode ver pelos filmes vinculados, cada traço no espaço de estados representa a atividade do cérebro como um todo.
Alguém pode fornecer a intuição para o significado de cada "quadro" do filme espacial, em comparação com a figura que associa o gráfico XY das pontuações dos 2 primeiros PCs. O que significa, em um determinado "quadro", que 1 tentativa do experimento esteja em 1 posição no espaço de estado XY e outra tentativa esteja em outra posição? Como as posições de plotagem XY nos filmes se relacionam com os principais rastreamentos de componentes na figura vinculada mencionada na primeira parte da minha pergunta?