Como os principais componentes principais podem reter o poder preditivo de uma variável dependente (ou até levar a melhores previsões)?


25

Suponha que eu estou correndo uma regressão . Por seleccionando top principais componentes do , é que o modelo de manter o seu poder preditivo em ?k X YYXkXY

Eu entendo que a partir de-redução de dimensionalidade / ponto de recurso de seleção de vista, se são os vectores próprios da matriz de covariância de com altos valores próprios, então são top componentes principais com variações máximas. Podemos, assim, reduzir o número de recursos para reter a maior parte do poder preditivo, como eu o entendo. X k X v 1 , X v 2 . . . X v k k kv1,v2,...vkXkXv1 1,Xv2...Xvkkk

Mas por que os principais componentes retêm o poder preditivo em ?YkY

Se falamos de um OLS geral , não há razão para sugerir que se o recurso tem máxima variância, então tem o poder mais preditiva em .Z i Z i YYZZiZiY

Atualize depois de ver comentários: acho que já vi vários exemplos de uso do PCA para redução de dimensionalidade. Suponho que isso signifique que as dimensões que nos restam têm o poder mais preditivo. Caso contrário, qual é o ponto de redução de dimensionalidade?


3
Você está correto: não há nenhuma razão matemática para supor os top PCs de X tem qualquer poder preditivo - assim como não há nenhuma razão matemática geral para supor que qualquer conjunto de covariáveis X tem qualquer relação em tudo a um determinado Y . Parece que você pode estar se referindo a alguma afirmação que encontrou: exatamente o que diz e quem disse? KXXY
whuber

@whuber Acho que pareço vários exemplos de uso do PCA para redução de dimensão. Suponho que isso signifique que as dimensões que nos restam têm os poderes mais preditivos. Caso contrário, esse é o ponto de reduzir dimensões?
Vendetta

Respostas:


43

De fato, não há garantia de que os principais componentes principais (PCs) tenham mais poder preditivo do que os de baixa variação.

Exemplos do mundo real podem ser encontrados onde esse não é o caso, e é fácil construir um exemplo artificial em que, por exemplo, apenas o menor PC tenha alguma relação com .y

Este tópico foi discutido bastante em nosso fórum e, na (infeliz) ausência de um tópico claramente canônico, só posso fornecer vários links que, juntos, fornecem vários exemplos da vida real e artificial:

E o mesmo tópico, mas no contexto da classificação:


No entanto, na prática, os principais PCs muitas vezes que muitas vezes têm mais poder preditivo do que os de baixa variância, e, além disso, usando apenas PCs top pode render melhor poder preditivo do que usar todos os PCs.

Em situações com muitos preditores e relativamente poucos pontos de dados n (por exemplo, quando p n ou mesmo p > n ), a regressão comum será superajustada e precisará ser regularizada. A regressão por componente principal (PCR) pode ser vista como uma maneira de regularizar a regressão e tenderá a fornecer resultados superiores. Além disso, está intimamente relacionado à regressão de crista, que é uma maneira padrão de regularização de retração. Enquanto o uso de regressão de crista é geralmente uma idéia melhor, a PCR geralmente se comporta razoavelmente bem. Consulte Por que o encolhimento funciona? para a discussão geral sobre tradeoff de variação de polarização e sobre como o encolhimento pode ser benéfico.pnpnp>n

De certa forma, pode-se dizer que a regressão de crista e a PCR assumem que a maioria das informações sobre está contida nos grandes PCs de X , e essa suposição é frequentemente justificada.yX

Veja a resposta posterior de @cbeleites (+1) para alguma discussão sobre por que essa suposição é frequentemente necessária (e também este tópico mais recente: a redução de dimensionalidade quase sempre é útil para classificação? Para alguns comentários).

Hastie et al. em Os elementos de aprendizagem estatística (seção 3.4.1) comentam isso no contexto da regressão de cordilheira:

Os pequenos valores singulares [...] correspondem às direções no espaço da coluna de com pequena variância, e a regressão da crista diminui mais essas direções. [...] A regressão de Ridge protege contra a variação potencialmente alta de gradientes estimados em direções curtas. A suposição implícita é que a resposta tenderá a variar mais nas direções de alta variação das entradas. Isso geralmente é uma suposição razoável, uma vez que os preditores geralmente são escolhidos para o estudo porque variam com a variável resposta, mas não precisam ser mantidos em geral.X

Veja minhas respostas nos seguintes tópicos para obter detalhes:


Bottom line

Para problemas de alta dimensão, o pré-processamento com PCA (que significa reduzir a dimensionalidade e manter apenas os principais PCs) pode ser visto como uma maneira de regularização e, muitas vezes, melhora os resultados de qualquer análise subsequente, seja um método de regressão ou de classificação. Mas não há garantia de que isso funcione, e muitas vezes existem abordagens de regularização melhores.


Obrigado por coletar as referências em sua resposta. Aqui está outro recente. Há uma resposta com mais links.
ttnphns

Obrigado, @ttnphns! Eu não vi esse post, porque ele não tinha uma tag [pca] (eu estou acompanhando de perto apenas algumas tags específicas). Na verdade, estou bastante infeliz por haver uma coleção frouxa de 5 a 10 threads intimamente relacionados, sem perguntas e respostas sendo realmente perfeitas e sem duplicatas reais entre elas. Eu preferiria ter um tópico canônico que poderia ser usado para futuras referências ...
ameba diz Reinstate Monica

Adicionei a tag a essa pergunta. A resposta enciclodédica "perfeita" sobre esse tema interessante está aguardando seu autor. :-) Você pode decidir se tornar um.
ttnphns

Também relevante: resposta da onestop
kjetil b halvorsen

11

Além das respostas que já se concentram nas propriedades matemáticas, eu gostaria de comentar do ponto de vista experimental.

Resumo: os processos de geração de dados geralmente são otimizados de maneira a tornar os dados adequados para a regressão de componente principal (PCR) ou de mínimos quadrados parciais (PLS).


Sou químico analítico. Ao projetar um experimento / método para medir (regressão ou classificação) algo, utilizo meu conhecimento sobre aplicativos e instrumentos disponíveis para obter dados com uma boa relação sinal / ruído em relação à tarefa em questão. Isso significa que os dados que eu gero são projetados para ter uma grande covariância com a propriedade de interesse.
Isso leva a uma estrutura de variação na qual a variação interessante é grande e os PCs posteriores carregam apenas o ruído (pequeno).

Também prefiro métodos que produzam informações redundantes sobre a tarefa em questão, a fim de obter resultados mais robustos ou mais precisos. O PCA concentra canais de medição redundantes em um PC, o qual carrega muita variação e, portanto, é um dos primeiros PCs.

Se houver fatores de confusão conhecidos que levarão a uma grande variação que não está correlacionada com a propriedade de interesse, geralmente tentarei corrigi-los o máximo possível durante o pré-processamento dos dados: em muitos casos, esses fatores de confusão são conhecidos natureza física ou química, e esse conhecimento sugere maneiras apropriadas de corrigir os fatores de confusão. Por exemplo, eu medo os espectros Raman sob o microscópio. A intensidade deles depende da intensidade da luz do laser e da capacidade de focalizar o microscópio. Ambos levam a alterações que podem ser corrigidas pela normalização, por exemplo, para um sinal que é conhecido por ser constante.
Assim, grandes contribuidores de variação que não contribuem para a solução podem ter sido eliminados antes que os dados entrem no PCA, deixando uma variação principalmente significativa nos primeiros PCs.


Por último, mas não menos importante, há um pouco de profecia auto-realizável aqui: Obviamente, a PCR é feita com dados nos quais a suposição de que a informação que apresenta variação é grande faz sentido. Se, por exemplo, eu acho que poderia haver fatores de confusão importantes que eu não sei como corrigir, eu iria imediatamente para o PLS, que é melhor em ignorar grandes contribuições que não ajudam na tarefa de previsão.


+1. Esta é uma excelente adição, obrigado por participar da discussão.
Ameba diz Reinstate Monica

@amoeba: obrigado pelas amáveis ​​palavras. Como sempre, sua resposta também é muito completa. Na verdade, eu confio em você cuidando de [pca]!
Cbeleites suporta Monica

6

O PCA às vezes é usado para corrigir problemas causados ​​por variáveis ​​colineares, de modo que a maior parte da variação no espaço X seja capturada pelos K componentes principais.

Mas esse problema matemático não é, obviamente, o mesmo que capturar a maioria das variações no espaço X, Y, de modo que a variação inexplicável seja a menor possível.

Os mínimos quadrados parciais tentam fazer isso no último sentido:

http://en.wikipedia.org/wiki/Partial_least_squares_regression


3

Como outros já apontaram, não há ligação direta entre os principais vetores próprios e o poder preditivo. Ao escolher o topo e usá-los como base, você retém alguma energia superior (ou variação ao longo desse eixo).

Pode ser que o eixo que explique a maior variação seja realmente útil para a previsão, mas em geral esse não é o caso.


Quando você diz "em geral", você quer dizer em geral na prática ou em geral na teoria?
Ameba diz Reinstate Monica

@amoeba Em geral, porque é fácil construir um conjunto de dados em que projetar os dados no eixo de variação máxima do topo k não é preditivo / discriminativo.
Vladislavs Dovgalecs 16/03/2015

-1

Deixe-me oferecer uma explicação simples.

O PCA significa remover certos recursos intuitivamente. Isso diminui as chances de ajuste excessivo.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.