Por que ? (Uma regressão linear variável)

14

Nota: = soma dos quadrados total, = soma dos erros quadrados e = soma dos quadrados por regressão. A equação no título é frequentemente escrita como: $SST$ $SSE$ $SSR$

\sum_{i = 1}^{n} (y_{i} - \bar{y})^{2} = \sum_{i = 1}^{n} (y_{i} - {\hat{y}}_{i})^{2} + \sum_{i = 1}^{n} ({\hat{y}}_{i} - \bar{y})^{2}

$\sum_{i=1}^n (y_i-\bar y)^2=\sum_{i=1}^n (y_i-\hat y_i)^2+\sum_{i=1}^n (\hat y_i-\bar y)^2$

Pergunta bastante direta, mas estou procurando uma explicação intuitiva. Intuitivamente, parece-me que faria mais sentido. Por exemplo, suponha que o ponto tenha o valor y correspondente e , onde é o ponto correspondente na linha de regressão. Suponha também que o valor y médio para o conjunto de dados seja . Então, para este ponto específico i, , enquanto e . Obviamente, . Esse resultado não seria generalizado para todo o conjunto de dados? Eu não entendo. $SST\geq SSE+SSR$ $x_i$ $y_i=5$ $\hat y_i=3$ $\hat y_i$ $\bar y=0$ $SST=(5-0)^2=5^2=25$ $SSE=(5-3)^2=2^2=4$ $SSR=(3-0)^2=3^2=9$ $9+4<25$

regression least-squares r-squared

— Cam
fonte

1

Threads muito próximos também têm boas respostas: stats.stackexchange.com/questions/1447 , stats.stackexchange.com/questions/118 , stats.stackexchange.com/questions/123651 , stats.stackexchange.com/questions/204930 e stats.stackexchange.com/questions/127598 .

— whuber

15

Adicionar e subtrair fornece Portanto, precisamos mostrar que . Escreva Portanto, (a) os resíduos precisam ser ortogonais aos valores ajustados, e (b) a soma dos valores ajustados precisa ser igual à soma da variável dependente,

\begin{array}{rcl} \sum_{i = 1}^{n} (y_{i} - \bar{y})^{2} & = & \sum_{i = 1}^{n} (y_{i} - {\hat{y}}_{i} + {\hat{y}}_{i} - \bar{y})^{2} \\ = & \sum_{i = 1}^{n} (y_{i} - {\hat{y}}_{i})^{2} + 2 \sum_{i = 1}^{n} (y_{i} - {\hat{y}}_{i}) ({\hat{y}}_{i} - \bar{y}) + \sum_{i = 1}^{n} ({\hat{y}}_{i} - \bar{y})^{2} \end{array}

$\begin{eqnarray*} \sum_{i=1}^n (y_i-\bar y)^2&=&\sum_{i=1}^n (y_i-\hat y_i+\hat y_i-\bar y)^2\\ &=&\sum_{i=1}^n (y_i-\hat y_i)^2+2\sum_{i=1}^n(y_i-\hat y_i)(\hat y_i-\bar y)+\sum_{i=1}^n(\hat y_i-\bar y)^2 \end{eqnarray*}$

\sum_{i = 1}^{n} (y_{i} - {\hat{y}}_{i}) ({\hat{y}}_{i} - \bar{y}) = 0

$\sum_{i=1}^n(y_i-\hat y_i)(\hat y_i-\bar y)=0$

\sum_{i = 1}^{n} (y_{i} - {\hat{y}}_{i}) ({\hat{y}}_{i} - \bar{y}) = \sum_{i = 1}^{n} (y_{i} - {\hat{y}}_{i}) {\hat{y}}_{i} - \bar{y} \sum_{i = 1}^{n} (y_{i} - {\hat{y}}_{i})

$\sum_{i=1}^n(y_i-\hat y_i)(\hat y_i-\bar y)=\sum_{i=1}^n(y_i-\hat y_i)\hat y_i-\bar y\sum_{i=1}^n(y_i-\hat y_i)$

e_{i} = y_{i} - {\hat{y}}_{i}

$e_i=y_i-\hat y_i$

\sum_{i = 1}^{n} (y_{i} - {\hat{y}}_{i}) {\hat{y}}_{i} = 0

$\sum_{i=1}^n(y_i-\hat y_i)\hat y_i=0$

\sum_{i = 1}^{n} y_{i} = \sum_{i = 1}^{n} {\hat{y}}_{i}

$\sum_{i=1}^ny_i=\sum_{i=1}^n\hat y_i$ .

Na verdade, acho que (a) é mais fácil de mostrar em notação matricial para regressão múltipla geral da qual o caso de variável única é um caso especial: Quanto a (b), a derivada do critério OLS funciona em relação à constante (portanto, você precisa de um na regressão para que isso seja verdade!), também conhecida como equação normal, é que pode ser reorganizado para O lado direito dessa equação também é evidentemente , como

\begin{array}{rcl} e^{'} X \hat{β} & = & (y - X \hat{β})^{'} X \hat{β} \\ = & (y - X (X^{'} X)^{- 1} X^{'} y)^{'} X \hat{β} \\ = & y^{'} (X - X (X^{'} X)^{- 1} X^{'} X) \hat{β} \\ = & y^{'} (X - X) \hat{β} = 0 \end{array}

$\begin{eqnarray*} e'X\hat\beta &=&(y-X\hat\beta)'X\hat\beta\\ &=&(y-X(X'X)^{-1}X'y)'X\hat\beta\\ &=&y'(X-X(X'X)^{-1}X'X)\hat\beta\\ &=&y'(X-X)\hat\beta=0 \end{eqnarray*}$

\frac{\partial S S R}{\partial \hat{α}} = - 2 \sum_{i} (y_{i} - \hat{α} - \hat{β} x_{i}) = 0,

$\frac{\partial SSR}{\partial\hat\alpha}=-2\sum_i(y_i-\hat\alpha-\hat\beta x_i)=0,$

\sum_{i} y_{i} = n \hat{α} + \hat{β} \sum_{i} x_{i}

$\sum_i y_i=n\hat\alpha+\hat\beta\sum_ix_i$

\sum_{i = 1}^{n} {\hat{y}}_{i}

$\sum_{i=1}^n\hat y_i$

{\hat{y}}_{i} = \hat{α} + \hat{β} x_{i}

$\hat y_i=\hat\alpha+\hat\beta x_i$ .

— Christoph Hanck
fonte

3

(1) Intuição para por que $SST = SSR + SSE$

Quando tentamos explicar a variação total em Y ( $SST$ ) com uma variável explicativa, X, existem exatamente duas fontes de variabilidade. Primeiro, há a variabilidade capturada por X (regressão quadrática da soma) e, segundo, há a variabilidade não capturada por X (erro quadrático da soma). Portanto, $SST = SSR + SSE$ (igualdade exata).

(2) Intuição geométrica

Veja as primeiras fotos aqui (especialmente a terceira): https://sites.google.com/site/modernprogramevaluation/variance-and-bias

Parte da variação total nos dados (distância do ponto de dados a ) é capturada pela linha de regressão (a distância da linha de regressão a ) e erro (distância do ponto à linha de regressão) ) Não há espaço para que o seja maior que o . $\bar{Y}$ $\bar{Y}$ $SST$ $SSE + SSR$

(3) O problema com sua ilustração

Você não pode ver o SSE e o SSR de maneira pontual. Para um ponto em particular, o residual pode ser grande, de modo que existe mais erro do que a capacidade explicativa de X. No entanto, para outros pontos, o residual será pequeno, de modo que a linha de regressão explica grande parte da variabilidade. Eles vão equilibrar e, finalmente, . Claro que isso não é rigoroso, mas você pode encontrar provas como as acima. $SST = SSR + SSE$

Observe também que a regressão não será definida para um ponto: e você pode ver que o denominador será zero, tornando a estimativa indefinida. $b_1 = \frac{\sum(X_i -\bar{X})(Y_i-\bar{Y}) }{\sum (X_i -\bar{X})^2}$

Espero que isto ajude.

--Ryan M.

— RMurphy
fonte

1

Quando um intercepto é incluído na regressão linear (a soma dos resíduos é zero), . $SST=SSE+SSR$

prove Só é necessário provar que a última parte é igual a 0: Na regressão de mínimos quadrados, a soma dos quadrados dos erros é minimizada.

\begin{array}{rcl} S S T & = & \sum_{i = 1}^{n} (y_{i} - \bar{y})^{2} \\ = & \sum_{i = 1}^{n} (y_{i} - {\hat{y}}_{i} + {\hat{y}}_{i} - \bar{y})^{2} \\ = & \sum_{i = 1}^{n} (y_{i} - {\hat{y}}_{i})^{2} + 2 \sum_{i = 1}^{n} (y_{i} - {\hat{y}}_{i}) ({\hat{y}}_{i} - \bar{y}) + \sum_{i = 1}^{n} ({\hat{y}}_{i} - \bar{y})^{2} \\ = & S S E + S S R + 2 \sum_{i = 1}^{n} (y_{i} - {\hat{y}}_{i}) ({\hat{y}}_{i} - \bar{y}) \end{array}

$\begin{eqnarray*} SST&=&\sum_{i=1}^n (y_i-\bar y)^2\\&=&\sum_{i=1}^n (y_i-\hat y_i+\hat y_i-\bar y)^2\\&=&\sum_{i=1}^n (y_i-\hat y_i)^2+2\sum_{i=1}^n(y_i-\hat y_i)(\hat y_i-\bar y)+\sum_{i=1}^n(\hat y_i-\bar y)^2\\&=&SSE+SSR+2\sum_{i=1}^n(y_i-\hat y_i)(\hat y_i-\bar y) \end{eqnarray*}$

\begin{array}{rcl} \sum_{i = 1}^{n} (y_{i} - {\hat{y}}_{i}) ({\hat{y}}_{i} - \bar{y}) & = & \sum_{i = 1}^{n} (y_{i} - β_{0} - β_{1} x_{i}) (β_{0} + β_{1} x_{i} - \bar{y}) \\ = & (β_{0} - \bar{y}) \sum_{i = 1}^{n} (y_{i} - β_{0} - β_{1} x_{i}) + β_{1} \sum_{i = 1}^{n} (y_{i} - β_{0} - β_{1} x_{i}) x_{i} \end{array}

$\begin{eqnarray*} \sum_{i=1}^n(y_i-\hat y_i)(\hat y_i-\bar y)&=&\sum_{i=1}^n(y_i-\beta_0-\beta_1x_i)(\beta_0+\beta_1x_i-\bar y)\\&=&(\beta_0-\bar y)\sum_{i=1}^n(y_i-\beta_0-\beta_1x_i)+\beta_1\sum_{i=1}^n(y_i-\beta_0-\beta_1x_i)x_i \end{eqnarray*}$

S S E = \sum_{i = 1}^{n} {(e_{i})}^{2} = \sum_{i = 1}^{n} {(y_{i} - \hat{y_{i}})}^{2} = \sum_{i = 1}^{n} {(y_{i} - β_{0} - β_{1} x_{i})}^{2}

$SSE=\displaystyle\sum\limits_{i=1}^n \left(e_i \right)^2= \sum_{i=1}^n\left(y_i - \hat{y_i} \right)^2= \sum_{i=1}^n\left(y_i -\beta_0- \beta_1x_i\right)^2$ Tome a derivada parcial do SSE em relação a e defina-a como zero. So Pegue a derivada parcial do SSE em relação a e defina-a como zero. So Portanto,

β_{0}

$\beta_0$

\frac{\partial S S E}{\partial β_{0}} = \sum_{i = 1}^{n} 2 {(y_{i} - β_{0} - β_{1} x_{i})}^{1} = 0

$\frac{\partial{SSE}}{\partial{\beta_0}} = \sum_{i=1}^n 2\left(y_i - \beta_0 - \beta_1x_i\right)^1 = 0$

\sum_{i = 1}^{n} {(y_{i} - β_{0} - β_{1} x_{i})}^{1} = 0

$\sum_{i=1}^n \left(y_i - \beta_0 - \beta_1x_i\right)^1 = 0$

β_{1}

$\beta_1$

\frac{\partial S S E}{\partial β_{1}} = \sum_{i = 1}^{n} 2 {(y_{i} - β_{0} - β_{1} x_{i})}^{1} x_{i} = 0

$\frac{\partial{SSE}}{\partial{\beta_1}} = \sum_{i=1}^n 2\left(y_i - \beta_0 - \beta_1x_i\right)^1 x_i = 0$

\sum_{i = 1}^{n} {(y_{i} - β_{0} - β_{1} x_{i})}^{1} x_{i} = 0

$\sum_{i=1}^n \left(y_i - \beta_0 - \beta_1x_i\right)^1 x_i = 0$

\sum_{i = 1}^{n} (y_{i} - {\hat{y}}_{i}) ({\hat{y}}_{i} - \bar{y}) = (β_{0} - \bar{y}) \sum_{i = 1}^{n} (y_{i} - β_{0} - β_{1} x_{i}) + β_{1} \sum_{i = 1}^{n} (y_{i} - β_{0} - β_{1} x_{i}) x_{i} = 0

$\sum_{i=1}^n(y_i-\hat y_i)(\hat y_i-\bar y)=(\beta_0-\bar y)\sum_{i=1}^n(y_i-\beta_0-\beta_1x_i)+\beta_1\sum_{i=1}^n(y_i-\beta_0-\beta_1x_i)x_i=0$

S S T = S S E + S S R + 2 \sum_{i = 1}^{n} (y_{i} - {\hat{y}}_{i}) ({\hat{y}}_{i} - \bar{y}) = S S E + S S R

$SST=SSE+SSR+2\sum_{i=1}^n(y_i-\hat y_i)(\hat y_i-\bar y)=SSE+SSR$

— DavidCruise
fonte

1

Este é apenas o teorema de Pitágoras! insira a descrição da imagem aqui

— user0
fonte

stats.stackexchange.com/q/71620/171583 , stats.stackexchange.com/a/256532/171583 .

— Ayorgo