Interpretação geométrica do coeficiente de correlação múltipla

Estou interessado no significado geométrico da correlação múltipla e no coeficiente de determinação na regressão ou em notação vetorial, $R$ $R^2$ $y_i = \beta_1 + \beta_2 x_{2,i} + \dots + \beta_k x_{k,i} + \epsilon_i$

y = X β + ϵ

$\mathbf{y} = \mathbf{X \beta} + \mathbf{\epsilon}$

Aqui a matriz de design possui linhas colunas, das quais a primeira é , um vetor 1s que corresponde à interceptação . $\mathbf{X}$ $n$ $k$ $\mathbf{x}_1 = \mathbf{1}_n$ $\beta_1$

A geometria é mais interessante no espaço sujeito dimensional em vez de no espaço variável dimensional. Defina a matriz do chapéu: $n$ $k$

H = {X (X^{⊤} X)}^{- 1} X^{⊤}

$\mathbf{H} = \mathbf{X \left(X^\top X \right)}^{-1} \mathbf{X}^\top$

Esta é uma projeção ortogonal no espaço da coluna de , ou seja, o plano através da origem estendida pelos vetores que representam cada variável , sendo o primeiro . Então projeta o vetor de respostas observadas em sua "sombra" no plano, o vetor de valores ajustados , e se Ao longo do caminho da projeção, vemos o vetor de resíduos forma o terceiro lado de um triângulo. Isso deve nos fornecer duas rotas para uma interpretação geométrica de $\mathbf{X}$ $k$ $\mathbf{x}_i$ $\mathbf{1}_n$ $\mathbf{H}$ $\mathbf{y}$ $\mathbf{\hat{y}} = \mathbf{Hy}$ $\mathbf{e} = \mathbf{y} - \mathbf{\hat{y}}$ $R^2$ :

O quadrado do coeficiente de correlação múltipla, $R$ , que é definido como a correlação entre $\mathbf{y}$ e $\mathbf{\hat{y}}$ . Isso aparecerá geometricamente como o cosseno de um ângulo.
Em termos de comprimentos de vetores: por exemplo $SS_\text{residual} = \sum_{i=1}^{n}e_i^2 = \|\mathbf{e}\|^2$ .

Eu ficaria encantado em ver um breve relato que explica:

Os detalhes mais finos de (1) e (2),
Por que (1) e (2) são equivalentes,
Resumidamente, como o insight geométrico nos permite visualizar as propriedades básicas de $R^2$ , por exemplo, por que ele chega a 1 quando a variação de ruído chega a 0. (Afinal, se não podemos intuir a partir de nossa visualização, não passa de um Bonita foto.)

Compreendo que isso seja mais direto se as variáveis forem centralizadas primeiro, o que remove a interceptação da pergunta. No entanto, na maioria das contas de livros didáticos que apresentam regressão múltipla, a matriz de design é a que eu expus. É claro que é bom se uma exposição se aprofundar no espaço ocupado pelas variáveis centralizadas, mas, para obter uma visão da álgebra linear do livro, seria muito útil relacionar isso de volta ao que está acontecendo geometricamente na situação não centralizada. Uma resposta realmente perspicaz pode explicar o que exatamente está se dividindo geometricamente quando o termo de interceptação é descartado - ou seja, quando o vetor $\mathbf{X}$ $\mathbf{1}_n$ é removido do conjunto de abrangência. Eu não acho que esse último ponto possa ser tratado considerando apenas as variáveis centralizadas.

— Silverfish
fonte

Se houver um termo constante no modelo, então no espaço de coluna de (assim como , que será útil posteriormente). O ajustado é a projeção ortogonal do observado no plano formado pelo espaço da coluna. Isso significa que o vetor de resíduos é perpendicular ao plano e, portanto, a . Considerando o produto escalar, podemos ver , portanto, os componentes de devem somar zero. Como , concluímos que $\mathbf{1_n}$ $\mathbf{X}$ $\bar{Y}\mathbf{1_n}$ $\mathbf{\hat{Y}}$ $\mathbf{Y}$ $\mathbf{e} = \mathbf{y} - \mathbf{\hat{y}}$ $\mathbf{1_n}$ $\sum_{i=1}^n e_i = 0$ $\mathbf{e}$ $Y_i = \hat{Y_i} + e_i$ $\sum_{i=1}^n Y_i = \sum_{i=1}^n \hat{Y_i}$ forma que as respostas ajustadas e as observadas tenham média . $\bar{Y}$

Vetores no espaço sujeito da regressão múltipla

As linhas tracejadas no diagrama representam e , que são os centradas vectores para as respostas observadas e embutidos. A co-seno do ângulo entre estes vectores irão por conseguinte ser a correlação de e , que, por definição, é o coeficiente de correlação múltipla . O triângulo estes vectores formar com o vetor de resíduos está em ângulo recto desde reside no plana, mas $\mathbf{Y} - \bar{Y}\mathbf{1_n}$ $\mathbf{\hat{Y}} - \bar{Y}\mathbf{1_n}$ $\theta$ $Y$ $\hat{Y}$ $R$ $\mathbf{\hat{Y}} - \bar{Y}\mathbf{1_n}$ é ortogonal a ele. Conseqüentemente: $\mathbf{e}$

R = \cos (θ) = \frac{adj}{hyp} = \frac{‖ \hat{Y} - \bar{Y} 1_{n} ‖}{‖ Y - \bar{Y} 1_{n} ‖}

$R = \cos(\theta) = \frac{\text{adj}}{\text{hyp}} = \frac{\|\mathbf{\hat{Y}} - \bar{Y}\mathbf{1_n}\|}{\|\mathbf{Y} - \bar{Y}\mathbf{1_n}\|}$

Também poderíamos aplicar Pitágoras ao triângulo:

‖ Y - \bar{Y} 1_{n} ‖^{2} = ‖ Y - \hat{Y} ‖^{2} + ‖ \hat{Y} - \bar{Y} 1_{n} ‖^{2}

$\|\mathbf{Y} - \bar{Y}\mathbf{1_n}\|^2 = \|\mathbf{Y} - \mathbf{\hat{Y}}\|^2 + \|\mathbf{\hat{Y}} - \bar{Y}\mathbf{1_n}\|^2$

O que pode ser mais familiar como:

\sum_{i = 1}^{n} (Y_{i} - \bar{Y})^{2} = \sum_{i = 1}^{n} (Y_{i} - {\hat{Y}}_{i})^{2} + \sum_{i = 1}^{n} ({\hat{Y}}_{i} - \bar{Y})^{2}

$\sum_{i=1}^{n} (Y_i - \bar{Y})^2 = \sum_{i=1}^{n} (Y_i - \hat{Y}_i)^2 + \sum_{i=1}^{n} (\hat{Y}_i - \bar{Y})^2$

Esta é a decomposição da soma dos quadrados, . $SS_{\text{total}} = SS_{\text{residual}} + SS_{\text{regression}}$

A definição padrão para o coeficiente de determinação é:

R^{2} = 1 - \frac{S S_{residual}}{S S_{total}} = 1 - \frac{\sum_{i = 1}^{n} (y_{i} - {\hat{y}}_{i})^{2}}{\sum_{i = 1}^{n} (y_{i} - \bar{y})^{2}} = 1 - \frac{‖ Y - \hat{Y} ‖^{2}}{‖ Y - \bar{Y} 1_{n} ‖^{2}}

$R^2 = 1 - \frac{SS_{\text{residual}}}{SS_{\text{total}}} = 1 - \frac{\sum_{i=1}^n (y_i - \hat{y}_i)^2}{\sum_{i=1}^n (y_i - \bar{y})^2} = 1 - \frac{\|\mathbf{Y} - \mathbf{\hat{Y}}\|^2}{\|\mathbf{Y} - \bar{Y}\mathbf{1_n}\|^2}$

Quando as somas de quadrados podem ser particionadas, leva-se uma álgebra direta a mostrar que isso é equivalente à formulação "proporção da variância explicada",

R^{2} = \frac{S S_{regression}}{S S_{total}} = \frac{\sum_{i = 1}^{n} ({\hat{y}}_{i} - \bar{y})^{2}}{\sum_{i = 1}^{n} (y_{i} - \bar{y})^{2}} = \frac{‖ \hat{Y} - \bar{Y} 1_{n} ‖^{2}}{‖ Y - \bar{Y} 1_{n} ‖^{2}}

$R^2 = \frac{SS_{\text{regression}}}{SS_{\text{total}}} = \frac{\sum_{i=1}^n (\hat{y}_i - \bar{y})^2}{\sum_{i=1}^n (y_i - \bar{y})^2} = \frac{\|\mathbf{\hat{Y}} - \bar{Y}\mathbf{1_n}\|^2}{\|\mathbf{Y} - \bar{Y}\mathbf{1_n}\|^2}$

Existe uma maneira geométrica de ver isso a partir do triângulo, com álgebra mínima. A fórmula de definição dá e com a trigonometria básico podemos simplificar este . Esta é a ligação entre e . $R^2 = 1 - \sin^2(\theta)$ $\cos^2(\theta)$ $R^2$ $R$

Observe como era vital para essa análise ter um termo de interceptação, para que estivesse no espaço da coluna. Sem isso, os resíduos não teria resumiu a zero, e a média dos valores ajustados não teria coincidido com a média de . Nesse caso, não poderíamos ter desenhado o triângulo; as somas dos quadrados não teriam se decomposto de maneira pitagórica; não teria tido a forma e bastante citado nem ser o quadrado de . Nessa situação, algumas software (inclusive ) utiliza uma fórmula diferente para em conjunto $\mathbf{1_n}$ $Y$ $R^2$ $SS_{\text{reg}}/SS_{\text{total}}$ $R$ R $R^2$ .

— Silverfish
fonte

+1 Muito boa redação e número. Estou surpreso que só tenha o meu voto solitário e único.

— ameba diz Restabelecer Monica

+1. Observe que a figura da sua resposta, com "espaço na coluna X", Y, Ypred como vetores etc., é o que é conhecido nas estatísticas multivariadas como "(reduzida) representação do espaço de assunto" ( consulte , com outros links onde eu a usei) )

— ttnphns