Fazendo o CCA x construindo uma variável dependente com o PCA e fazendo a regressão

Dado dois conjuntos de dados multidimensionais, e , algumas pessoas realizam análises multivariáveis criando uma variável dependente substituta usando a análise de componentes principais (PCA). Ou seja, execute PCA no conjunto , faça pontuações ao longo do primeiro componente e execute uma regressão múltipla dessas pontuações em : . (Estou baseando minha pergunta neste artigo ). $X$ $Y$ $Y$ $y'$ $X$ $y' = \beta X+\epsilon$

Parece uma forma adulterada de análise de correlação canônica (CCA) entre os dois conjuntos de dados para mim. Mas, como não tenho experiência nessa área, não consigo identificar. Então, minha pergunta é: quais poderiam ser os prós / contras da análise de regressão PCA +, em comparação com o CCA?

A intuição diz que o CCA deve ser mais razoável aqui, pois (acredito) constrói as variáveis canônicas para não maximizar cegamente a variação explicada, mas já com o objetivo final de maximizar a correlação com em mente. Estou certo? $X$

Referência: Mei et al., 2010, Regressão multivariada baseada em componentes principais para estudos de associação genética de componentes da síndrome metabólica

— juod
fonte

Essa é uma boa pergunta, mas, como parece que você conhece a PCA e a CCA, pode responder você mesmo. E você faz:

[CCA] constrói as variáveis canônicas para não cegamente [escrever a existência de X] maximizar a variação explicada [em Y], mas já com o objetivo final de maximizar a correlação com X em mente.

Absolutamente verdadeiro. A correlação do PC do 1º Y com o conjunto X quase sempre será mais fraca que a correlação do CV do 1º Y com ele. Isso é aparente nas imagens comparando o PCA com as ações do CCA.

A regressão PCA + que você concebe é uma estratégia de duas etapas, inicialmente "não supervisionada" ("cega", como você disse), enquanto a CCA é uma estratégia de "supervisão" de uma etapa. Ambos são válidos - cada um em suas próprias configurações de investigação!

O 1º componente principal (PC1) obtido no PCA do conjunto Y é uma combinação linear de variáveis Y. A 1ª variável canônica (CV1) extraída do conjunto Y no CCA dos conjuntos Y e X também é uma combinação linear de variáveis Y. Mas eles são diferentes. (Explore as fotos vinculadas, preste atenção também à frase na qual o CCA está mais próximo - na verdade, uma forma de - regressão do que no PCA.)

PC1 representa definido Y . É o resumo linear e o "deputado" do conjunto Y, para enfrentar as relações do mundo exterior posteriormente (como em uma regressão subsequente de PC1 pelas variáveis X).

CV1 representa o conjunto X no conjunto Y. É a imagem linear de X pertencente a Y, o "insider" em Y. A relação YX já está lá: CCA é uma regressão multivariada.

Suponha que eu tenha resultados de uma amostra de crianças em um questionário de ansiedade escolar (como o teste de Phillips) - itens Y e seus resultados em um questionário de adaptação social - itens X. Eu quero estabelecer a relação entre os dois conjuntos. Os itens dentro de X e dentro de Y correlacionam-se, mas são bem diferentes e não estou satisfeito com a ideia de resumir pontuadamente as pontuações dos itens em uma única pontuação em cada conjunto, por isso estou optando por permanecer multivariada.

Se eu fizer o PCA de Y, extrair o PC1 e, em seguida, regredir nos itens X, o que isso significa? Significa que eu respeito o questionário de ansiedade (itens Y) como o domínio soberano (fechado) dos fenômenos, que pode se expressar. Expresse emitindo sua melhor soma ponderada de itens (considerando a variação máxima) que representa todo o conjunto Y - seu fator geral / pivô / tendência, "complexo de ansiedade da escola principal", o PC1. Não é antes que a representação seja formada que eu volto para a próxima pergunta como ela pode estar relacionada à adaptação social, a questão que verificarei na regressão.

Se eu fizer o CCAde Y x X, extraindo o 1º par de variáveis canônicas - uma de cada série - com correlação máxima, o que isso significa? Isso significa que eu suspeito que o fator comum entre (por trás) a ansiedade e a adaptação os faça correlacionados. No entanto, não tenho motivos ou motivos para extrair ou modelar esse fator por meio da análise PCA ou Fator do conjunto combinado "variáveis X + variáveis Y" (porque, por exemplo, vejo ansiedade e adaptação como dois domínios conceitualmente diferentes, ou porque os dois questionários têm escalas (unidades) muito diferentes ou distribuições de formas diferentes que eu temo "fundir", ou o número de itens é muito diferente nelas). Ficarei satisfeito apenas com a correlação canônica entre os conjuntos. Ou talvez eu não esteja supondo nenhum "fator comum" por trás dos sets, e simplesmente pense "X efeitos Y". Como Y é multivariado, o efeito é multidimensional, e estou pedindo o efeito mais forte de 1ª ordem. É dada pela 1ª correlação canônica e a variável de previsão correspondente a ele é o CV1 do conjunto Y. CV1 é pescado em Y, Y não éselbständig produtor dele.

— ttnphns
fonte

+1. Talvez eu acrescentasse que o CCA, como qualquer outra regressão, é propenso a superajustes. Portanto, se Y e / ou X incluem muitas variáveis, a execução do CCA pode resultar no primeiro componente em Y que é quase 100% previsto por X, mas na verdade é inteiramente devido ao ruído. Fazer PCAs em X e Y antes de fazer o CCA pode atuar como um tipo de regularização. Reduzir Y para um PC de uma forma extrema.

— Ameba

@amoeba, obrigado pela adição. Toca o lado inferencial da história (população, significado, parcimônia) que omiti completamente na resposta. Acho que entendi o que você está dizendo, mas você está dizendo isso muito reservado para alguém. Sobreajuste, barulho - essas coisas devem ser explicadas e, por isso, sugiro que você emita uma resposta separada para desembrulhar seu comentário.

— ttnphns