De fato, não há garantia de que os principais componentes principais (PCs) tenham mais poder preditivo do que os de baixa variação.
Exemplos do mundo real podem ser encontrados onde esse não é o caso, e é fácil construir um exemplo artificial em que, por exemplo, apenas o menor PC tenha alguma relação com .y
Este tópico foi discutido bastante em nosso fórum e, na (infeliz) ausência de um tópico claramente canônico, só posso fornecer vários links que, juntos, fornecem vários exemplos da vida real e artificial:
E o mesmo tópico, mas no contexto da classificação:
No entanto, na prática, os principais PCs muitas vezes que muitas vezes têm mais poder preditivo do que os de baixa variância, e, além disso, usando apenas PCs top pode render melhor poder preditivo do que usar todos os PCs.
Em situações com muitos preditores e relativamente poucos pontos de dados n (por exemplo, quando p ≈ n ou mesmo p > n ), a regressão comum será superajustada e precisará ser regularizada. A regressão por componente principal (PCR) pode ser vista como uma maneira de regularizar a regressão e tenderá a fornecer resultados superiores. Além disso, está intimamente relacionado à regressão de crista, que é uma maneira padrão de regularização de retração. Enquanto o uso de regressão de crista é geralmente uma idéia melhor, a PCR geralmente se comporta razoavelmente bem. Consulte Por que o encolhimento funciona? para a discussão geral sobre tradeoff de variação de polarização e sobre como o encolhimento pode ser benéfico.pnp ≈ np > n
De certa forma, pode-se dizer que a regressão de crista e a PCR assumem que a maioria das informações sobre está contida nos grandes PCs de X , e essa suposição é frequentemente justificada.yX
Veja a resposta posterior de @cbeleites (+1) para alguma discussão sobre por que essa suposição é frequentemente necessária (e também este tópico mais recente: a redução de dimensionalidade quase sempre é útil para classificação? Para alguns comentários).
Hastie et al. em Os elementos de aprendizagem estatística (seção 3.4.1) comentam isso no contexto da regressão de cordilheira:
Os pequenos valores singulares [...] correspondem às direções no espaço da coluna de com pequena variância, e a regressão da crista diminui mais essas direções. [...] A regressão de Ridge protege contra a variação potencialmente alta de gradientes estimados em direções curtas. A suposição implícita é que a resposta tenderá a variar mais nas direções de alta variação das entradas. Isso geralmente é uma suposição razoável, uma vez que os preditores geralmente são escolhidos para o estudo porque variam com a variável resposta, mas não precisam ser mantidos em geral.X
Veja minhas respostas nos seguintes tópicos para obter detalhes:
Bottom line
Para problemas de alta dimensão, o pré-processamento com PCA (que significa reduzir a dimensionalidade e manter apenas os principais PCs) pode ser visto como uma maneira de regularização e, muitas vezes, melhora os resultados de qualquer análise subsequente, seja um método de regressão ou de classificação. Mas não há garantia de que isso funcione, e muitas vezes existem abordagens de regularização melhores.