Por que Daniel Wilks (2011) diz que a regressão do componente principal "será tendenciosa"?

Em Métodos Estatísticos nas Ciências Atmosféricas , Daniel Wilks observa que a regressão linear múltipla pode levar a problemas se houver intercorrelações muito fortes entre os preditores (3ª edição, página 559-560):

Uma patologia que pode ocorrer na regressão linear múltipla é que um conjunto de variáveis preditoras com fortes correlações mútuas pode resultar no cálculo de uma relação de regressão instável.

(...)

Ele então introduz a regressão do componente principal:

Uma abordagem para solucionar esse problema é primeiro transformar os preditores em seus principais componentes, cujas correlações são zero.

Por enquanto, tudo bem. Mas a seguir, ele faz algumas afirmações que não explica (ou pelo menos não em detalhes suficientes para eu entender):

Se todos os componentes principais forem retidos em uma regressão de componente principal, nada será ganho sobre os mínimos quadrados convencionais ajustados ao conjunto completo de preditores.

(..) e:

É possível reexpressar a regressão do componente principal em termos dos preditores originais, mas o resultado geralmente envolverá todas as variáveis preditivas originais, mesmo que apenas um ou alguns preditores do componente principal tenham sido utilizados. Essa regressão reconstituída será enviesada, embora muitas vezes a variação seja muito menor, resultando em um MSE menor em geral.

Eu não entendo esses dois pontos.

Obviamente, se todos os componentes principais forem retidos, usamos as mesmas informações de quando estávamos usando os preditores em seu espaço original. No entanto, o problema das correlações mútuas é removido trabalhando no espaço do componente principal. Ainda podemos ter sobreajuste, mas esse é o único problema? Por que nada é ganho?

Em segundo lugar, mesmo se truncamos os componentes principais (talvez para redução de ruído e / ou para evitar o super ajuste), por que e como isso leva a uma regressão reconstituída tendenciosa? Tendencioso de que maneira?

Fonte do livro: Daniel S. Wilks, Métodos Estatísticos em Ciências Atmosféricas, terceira edição, 2011. International Geophysics Series Volume 100, Academic Press.

regression pca bias

— gerrit
fonte

(+1) Na segunda citação, "será tendencioso" não segue logicamente: melhor seria uma afirmação mais branda como "provavelmente tendencioso". Suspeito que o raciocínio por trás disso possa ser algo como "porque a PCR impõe relações lineares entre as estimativas de parâmetros, essas estimativas tenderão a diferir das estimativas da OLS; e porque as estimativas da OLS são imparciais, isso significa que as estimativas da PCR serão tendenciosas". Intuitivamente, é uma boa heurística, mas não está totalmente correta.

— whuber

poderia-se dizer que "a PCR será enviesada" se (a) os pontos de dados não ocuparem um coletor dimensional linear menor ou igual ao número escolhido de PCs e (b) os pontos de dados não estiverem perfeitamente correlacionados? ou como?

— Soren Havelund Welling

O que acontece quando todos os PCs são usados?

Se todos os PCs forem usados, os coeficientes de regressão resultantes serão idênticos aos obtidos com a regressão OLS; portanto, esse procedimento não deve ser chamado de "regressão de componente principal". É regressão padrão, realizada apenas de forma indireta.

Você está perguntando como é possível que nada seja ganho, já que após o PCA os preditores se tornam ortogonais. O diabo se esconde na retrotransformação dos coeficientes de regressão do espaço PCA para o espaço original. O que você precisa saber é que a variação dos coeficientes de regressão estimados depende inversamente da matriz de covariância dos preditores. Os preditores transformados por PCA, vamos chamá-los de , têm matriz de covariância diagonal (porque não são correlacionados). Portanto, todos os coeficientes de regressão para $Z$ $Z$ também não são correlacionados; os que correspondem aos PCs de alta variância têm baixa variação (isto é, são estimados com confiabilidade) e os que correspondem aos PCs de baixa variância têm alta variação (isto é, são estimados com confiabilidade). Quando esses coeficientes são transformados de volta aos preditores originais , cada um dos preditores receberá uma parte das estimativas não confiáveis e, portanto, todos os coeficientes podem se tornar não confiáveis . $X$ $X_i$

Então, nada é ganho.

O que acontece quando apenas alguns PCs são usados?

Quando nem todos os PCs são retidos na PCR, a solução resultante geralmente não será igual à solução padrão de mínimos quadrados comuns . É um resultado padrão que a solução OLS é imparcial : veja o teorema de Gauss-Markov . "Imparcial" significa que está correto em média , mesmo que seja muito barulhento. Como a solução de PCR difere dela, ela será enviesada , o que significa que estará incorreta em média. No entanto, muitas vezes acontece que é substancialmente menos barulhento, levando a previsões gerais mais precisas. $\hat \beta_\mathrm{PCR}$ $\hat \beta_\mathrm{OLS}$ $\hat \beta$

Este é um exemplo da troca de desvio e desvio . Consulte Por que o encolhimento funciona? para alguma discussão geral adicional.

Nos comentários, o @whuber apontou que a solução de PCR não precisa ser diferente da solução OLS e, portanto, não precisa ser enviesada. De fato, se a variável dependente não estiver correlacionada (na população, não na amostra) com todos os PCs de baixa variância que não estão incluídos no modelo de PCR, a eliminação desses PCs não influenciará a imparcialidade. No entanto, é improvável que seja o caso na prática: o PCA é conduzido sem levar em consideração , portanto, é lógico que tenderá a estar um pouco correlacionado com todos os PCs. $y$ $y$ $y$

Por que usar PCs de alta variação é uma boa idéia?

Isso não fazia parte da pergunta, mas você pode estar interessado no seguinte tópico para uma leitura mais aprofundada: Como os principais componentes principais podem reter o poder preditivo de uma variável dependente (ou até levar a melhores previsões)?

— ameba diz Restabelecer Monica
fonte

Os comentários em seu último parágrafo parecem confundir a distribuição condicional de (nos regressores) com os valores de no conjunto de dados.

Y

$Y$

Y

$Y$

— whuber

@ Whuber, de fato. Reescrevi esse parágrafo, espero que faça mais sentido agora. Obrigado.

— ameba diz Restabelecer Monica

Hmm, certo. Polarizado significa essencialmente que alguns pontos são mais iguais que outros, que é exatamente o que queremos se queremos reduzir a influência de ruídos e outliers (dos quais ainda não tenho certeza se o PCA é a melhor ferramenta para isso).

— Gerrit

@gerrit Você escreve como se o viés fosse equivalente à ponderação, mas são coisas separadas. A tendência nesse contexto refere-se a qualquer diferença entre os valores esperados das estimativas do coeficiente e seus valores reais.

— whuber

O modelo supõe que as respostas são variáveis aleatórias. Isso torna os coeficientes estimados - usando qualquer procedimento - variáveis aleatórias também. Seus valores esperados são definidos como para qualquer variável aleatória. Por definição, viés é a diferença entre o valor esperado e o valor verdadeiro. As estimativas do coeficiente de OLS têm desvios de zero. O viés de algum outro procedimento ainda pode ser zero. A lógica da citação é que um procedimento linear, como o OLS, mas impõe relações entre os coeficientes, será necessariamente tendencioso. Essa conclusão é verdadeira em muitos casos, mas não em todos.

— whuber