Em Métodos Estatísticos nas Ciências Atmosféricas , Daniel Wilks observa que a regressão linear múltipla pode levar a problemas se houver intercorrelações muito fortes entre os preditores (3ª edição, página 559-560):
Uma patologia que pode ocorrer na regressão linear múltipla é que um conjunto de variáveis preditoras com fortes correlações mútuas pode resultar no cálculo de uma relação de regressão instável.
(...)
Ele então introduz a regressão do componente principal:
Uma abordagem para solucionar esse problema é primeiro transformar os preditores em seus principais componentes, cujas correlações são zero.
Por enquanto, tudo bem. Mas a seguir, ele faz algumas afirmações que não explica (ou pelo menos não em detalhes suficientes para eu entender):
Se todos os componentes principais forem retidos em uma regressão de componente principal, nada será ganho sobre os mínimos quadrados convencionais ajustados ao conjunto completo de preditores.
(..) e:
É possível reexpressar a regressão do componente principal em termos dos preditores originais, mas o resultado geralmente envolverá todas as variáveis preditivas originais, mesmo que apenas um ou alguns preditores do componente principal tenham sido utilizados. Essa regressão reconstituída será enviesada, embora muitas vezes a variação seja muito menor, resultando em um MSE menor em geral.
Eu não entendo esses dois pontos.
Obviamente, se todos os componentes principais forem retidos, usamos as mesmas informações de quando estávamos usando os preditores em seu espaço original. No entanto, o problema das correlações mútuas é removido trabalhando no espaço do componente principal. Ainda podemos ter sobreajuste, mas esse é o único problema? Por que nada é ganho?
Em segundo lugar, mesmo se truncamos os componentes principais (talvez para redução de ruído e / ou para evitar o super ajuste), por que e como isso leva a uma regressão reconstituída tendenciosa? Tendencioso de que maneira?
Fonte do livro: Daniel S. Wilks, Métodos Estatísticos em Ciências Atmosféricas, terceira edição, 2011. International Geophysics Series Volume 100, Academic Press.