Como visualizar o que a análise de correlação canônica faz (em comparação com o que a análise de componentes principais faz)?

70

A análise de correlação canônica (CCA) é uma técnica relacionada à análise de componentes principais (PCA). Embora seja fácil ensinar PCA ou regressão linear usando um gráfico de dispersão (veja alguns milhares de exemplos na pesquisa de imagens do google), não vi um exemplo bidimensional intuitivo semelhante para o CCA. Como explicar visualmente o que o CCA linear faz?

— figura
fonte

11

De que maneira o CCA generaliza o PCA? Eu não diria que é sua generalização. O PCA trabalha com um conjunto de variáveis, o CCA trabalha com duas (ou mais implementações modernas), e essa é uma grande diferença.

— ttnphns

2

Bem, estritamente relacionado, pode ser uma melhor escolha de palavra. De qualquer forma, o PCA opera em uma matriz de covariância e o CCA em uma matriz de covariância cruzada. Se você tiver apenas um conjunto de dados, o cálculo de suas covariâncias cruzadas contra ele próprio retornará ao caso mais simples (PCA).

— figure

4

Bem, sim, "relacionado" é melhor. O CCA leva em consideração as inter-covariâncias e as covariâncias cruzadas.

— ttnphns

11

Alguns sugeriram visualizar correlações canônicas usando heliografias. Você pode ler o artigo ti.arc.nasa.gov/m/profile/adegani/Composite_Heliographs.pdf

97

Bem, acho realmente difícil apresentar uma explicação visual da análise de correlação canônica (CCA) em relação à análise de componentes principais (PCA) ou regressão linear . Os dois últimos são frequentemente explicados e comparados por meio de gráficos de dispersão de dados 2D ou 3D, mas duvido que isso seja possível com o CCA. Abaixo, eu desenhei figuras que podem explicar a essência e as diferenças nos três procedimentos, mas mesmo com essas figuras - que são representações vetoriais no "espaço sujeito" - há problemas em capturar o CCA adequadamente. (Para álgebra / algoritmo de análise de correlação canônica, veja aqui .)

Desenhar indivíduos como pontos em um espaço em que os eixos são variáveis, um gráfico de dispersão usual, é um espaço variável . Se você traçar o caminho oposto - variáveis como pontos e indivíduos como eixos - esse será um espaço de assunto . Desenhar os muitos eixos é realmente desnecessário porque o espaço tem o número de dimensões não redundantes igual ao número de variáveis não colineares. Pontos variáveis são conectados aos vetores de origem e forma, setas, abrangendo o espaço do assunto; então aqui estamos ( veja também ). Em um espaço de assunto, se as variáveis foram centralizadas, o cosseno do ângulo entre seus vetores é a correlação de Pearson entre eles, e o comprimento dos vetores ao quadrado são suas variações. Nas figuras abaixo, as variáveis exibidas são centralizadas (não há necessidade de constante).

Componentes principais

insira a descrição da imagem aqui

As variáveis e correlacionam-se positivamente: possuem ângulo agudo entre elas. Os componentes principais e estão no mesmo espaço "plano X" estendido pelas duas variáveis. Os componentes também são variáveis, apenas mutuamente ortogonais (não correlacionados). A direção de é de modo a maximizar a soma das duas cargas quadradas desse componente; e , o componente restante, segue ortogonalmente a no plano X. Os comprimentos quadrados de todos os quatro vetores são suas variações (a variação de um componente é a soma mencionada acima de suas cargas quadradas). As cargas de componentes são as coordenadas das variáveis nos componentes - $X_1$ $X_2$ $P_1$ $P_2$ $P_1$ $P_2$ $P_1$ $a$ é mostrado na foto à esquerda. Cada variável é a combinação linear livre de erros dos dois componentes, com as cargas correspondentes sendo os coeficientes de regressão. E vice-versa , cada componente é a combinação linear livre de erros das duas variáveis; os coeficientes de regressão nessa combinação são dados pelas coordenadas inclinadas dos componentes nas variáveis - 'mostradas na figura à direita. A magnitude real do coeficiente de regressão será dividida pelo produto dos comprimentos (desvios padrão) do componente previsto e da variável preditora, por exemplo, . [Nota: Os valores dos componentes que aparecem nas duas combinações lineares mencionadas acima são valores padronizados, st. dev. $b$ $b$ $b_{12}/(|P_1|*|X_2|)$ = 1. Isso porque as informações sobre suas variações são capturadas pelas cargas . Para falar em termos de valores dos componentes não padronizados, 's na foto acima deve ser eigenvectors ' valores, o resto do raciocínio é o mesmo.] $a$

Regressão múltipla

insira a descrição da imagem aqui

Enquanto no PCA tudo está no plano X, na regressão múltipla aparece uma variável dependente que geralmente não pertence ao plano X, o espaço dos preditores , . Mas $Y$ $X_1$ $X_2$ $Y$ $Y'$ $Y$ $X$ $e$ $Y$ $Y'$ $Y'$ $b$ $b$ $b_{2}/|X_2|$

Correlação canônica

No PCA, um conjunto de variáveis se prevê: elas modelam componentes principais que, por sua vez, modelam as variáveis, você não deixa o espaço dos preditores e (se você usar todos os componentes) a previsão é livre de erros. Na regressão múltipla, um conjunto de variáveis prevê uma variável estranha e, portanto, há algum erro de previsão. No CCA, a situação é semelhante à da regressão, mas (1) as variáveis estranhas são múltiplas, formando um conjunto próprio; (2) os dois conjuntos preveem um ao outro simultaneamente (daí a correlação e não a regressão); (3) o que eles prevêem um no outro é mais um extrato, uma variável latente, do que a previsão observada e uma regressão ( ver também ).

insira a descrição da imagem aqui

$Y_1$ $Y_2$ $X$ $Y$ $V_x$ $V_y$ $Y'$ $Y'$ $Y$ $V_x$ $V_y$ $V_y$ $V_x$ $\phi$ $X$ $Y$ $X_1$ $X_2$ $Y_1$ $Y_2$ $V_{x(2)}$ $V_x$ $V_{y(2)}$ $V_y$

Para a diferença entre a regressão CCA e PCA +, consulte também Fazendo CCA vs. construindo uma variável dependente com PCA e depois fazendo regressão .

— ttnphns
fonte

3

+1 (de dias atrás). Eu realmente espero que você acabe com mais de 6 votos positivos por isso; é realmente uma ótima visão geral de como o CCA funciona.

— gung - Restabelece Monica

2

Isso me ajuda muito a entender o CCA.

— Zhenglei

@Glen_b, fiquei surpreso, muito satisfeito por você ter decidido premiar esta resposta.

— ttnphns

11

@ttnphns, superb. Mesmo que eu não tenha entendido tudo, é definitivamente de longe a melhor explicação do CCA que encontrei. E acho que é realmente importante ter uma visão do que está acontecendo, pois sei que lembrarei de algo se puder visualizá-lo, em vez de vagar por diferentes teoremas.

— Christian

P_{1}

$P_1$

X_{1}

$X_1$

X_{2}

$X_2$

2

Para mim, foi muito útil ler no livro de S. Mulaik "The Foundations of Factoranalysis" (1972), que existe um método puramente de rotações de uma matriz de cargas fatoriais para chegar a uma correlação canônica, para que eu pudesse localizar naquele conjunto de conceitos que eu já havia entendido até agora da análise de componentes principais e análise fatorial.

Talvez você esteja interessado neste exemplo (que eu reconstruí de uma primeira implementação / discussão de 1998 apenas alguns dias atrás para verificar e verificar novamente o método com relação à computação pelo SPSS). Veja aqui . Estou usando meu pequeno matrix / pca-tools Inside-[R]e Matmatepara isso, mas acho que pode ser reconstruído Rsem muito esforço.

— Elmos de Gottfried
fonte

2

Esta resposta não fornece uma ajuda visual para a compreensão do CCA, no entanto, uma boa interpretação geométrica do CCA é apresentada no capítulo 12 do Anderson-1958 [1]. A essência disso é a seguinte:

$N$ $x_1, x_2, ..., x_N$ $p$ $X$ $p\times N$ $x_i$ $X$ $p$ $(N-1)$ $^*$ $p_1$ $p_2$ $x_1,...,x_{p_1}$ $p_2$ $x_{p_1+1}, ..., x_p$

Acho essa perspectiva interessante por estas razões:

Ele fornece uma interessante interpretação geométrica sobre as entradas das variáveis canônicas do CCA.
Os coeficientes de correlação estão ligados ao ângulo entre as duas projeções da CCA.
$\frac{p_1}{N}$ $\frac{p_2}{N}$ $\rightarrow$ $(N-1)$ $N$

$p_1$ $p_2$

$(N-1)$ $N$ $\text{mean}(x_i) = 0$

[1] Anderson, TW Uma introdução à análise estatística multivariada. Vol. 2. Nova York: Wiley, 1958.

— idnavid
fonte

11

Você pode adicionar fotos desse livro para visualizar a resposta?

— Ttnphns 21/05/19

Infelizmente, o livro não possui figuras para este capítulo (na verdade, acho que não há figuras no livro inteiro).

— Idnavid 21/05/19

@ttnphns Passei algum tempo no outro dia e montei um pequeno exemplo para ilustrar esse ponto. Obrigado pela sugestão!

— Idnavid 31/05/19

1

A melhor maneira de ensinar estatística é com dados. Técnicas estatísticas multivariadas são frequentemente complicadas com matrizes que não são intuitivas. Eu explicaria o CCA usando o Excel. Crie duas amostras, adicione novas variáveis (colunas basicamente) e mostre o cálculo. E no que diz respeito à construção da matriz do CCA, a melhor maneira é ensinar primeiro com um caso bivariado e depois expandi-lo.

— S Chapman
fonte