Essa é uma boa pergunta, mas, como parece que você conhece a PCA e a CCA, pode responder você mesmo. E você faz:
[CCA] constrói as variáveis canônicas para não cegamente [escrever a existência de X] maximizar a variação explicada [em Y], mas já com o objetivo final de maximizar a correlação com X em mente.
Absolutamente verdadeiro. A correlação do PC do 1º Y com o conjunto X quase sempre será mais fraca que a correlação do CV do 1º Y com ele. Isso é aparente nas imagens comparando o PCA com as ações do CCA.
A regressão PCA + que você concebe é uma estratégia de duas etapas, inicialmente "não supervisionada" ("cega", como você disse), enquanto a CCA é uma estratégia de "supervisão" de uma etapa. Ambos são válidos - cada um em suas próprias configurações de investigação!
O 1º componente principal (PC1) obtido no PCA do conjunto Y é uma combinação linear de variáveis Y. A 1ª variável canônica (CV1) extraída do conjunto Y no CCA dos conjuntos Y e X também é uma combinação linear de variáveis Y. Mas eles são diferentes. (Explore as fotos vinculadas, preste atenção também à frase na qual o CCA está mais próximo - na verdade, uma forma de - regressão do que no PCA.)
PC1 representa definido Y . É o resumo linear e o "deputado" do conjunto Y, para enfrentar as relações do mundo exterior posteriormente (como em uma regressão subsequente de PC1 pelas variáveis X).
CV1 representa o conjunto X no conjunto Y. É a imagem linear de X pertencente a Y, o "insider" em Y. A relação YX já está lá: CCA é uma regressão multivariada.
Suponha que eu tenha resultados de uma amostra de crianças em um questionário de ansiedade escolar (como o teste de Phillips) - itens Y e seus resultados em um questionário de adaptação social - itens X. Eu quero estabelecer a relação entre os dois conjuntos. Os itens dentro de X e dentro de Y correlacionam-se, mas são bem diferentes e não estou satisfeito com a ideia de resumir pontuadamente as pontuações dos itens em uma única pontuação em cada conjunto, por isso estou optando por permanecer multivariada.
Se eu fizer o PCA de Y, extrair o PC1 e, em seguida, regredir nos itens X, o que isso significa? Significa que eu respeito o questionário de ansiedade (itens Y) como o domínio soberano (fechado) dos fenômenos, que pode se expressar. Expresse emitindo sua melhor soma ponderada de itens (considerando a variação máxima) que representa todo o conjunto Y - seu fator geral / pivô / tendência, "complexo de ansiedade da escola principal", o PC1. Não é antes que a representação seja formada que eu volto para a próxima pergunta como ela pode estar relacionada à adaptação social, a questão que verificarei na regressão.
Se eu fizer o CCAde Y x X, extraindo o 1º par de variáveis canônicas - uma de cada série - com correlação máxima, o que isso significa? Isso significa que eu suspeito que o fator comum entre (por trás) a ansiedade e a adaptação os faça correlacionados. No entanto, não tenho motivos ou motivos para extrair ou modelar esse fator por meio da análise PCA ou Fator do conjunto combinado "variáveis X + variáveis Y" (porque, por exemplo, vejo ansiedade e adaptação como dois domínios conceitualmente diferentes, ou porque os dois questionários têm escalas (unidades) muito diferentes ou distribuições de formas diferentes que eu temo "fundir", ou o número de itens é muito diferente nelas). Ficarei satisfeito apenas com a correlação canônica entre os conjuntos. Ou talvez eu não esteja supondo nenhum "fator comum" por trás dos sets, e simplesmente pense "X efeitos Y". Como Y é multivariado, o efeito é multidimensional, e estou pedindo o efeito mais forte de 1ª ordem. É dada pela 1ª correlação canônica e a variável de previsão correspondente a ele é o CV1 do conjunto Y. CV1 é pescado em Y, Y não éselbständig produtor dele.