Esta postagem refere-se a um modelo de regressão linear bivariada, . Eu sempre tomei a particionamento da soma total de quadrados (SSTO) em soma de quadrados por erro (SSE) e soma de quadrados para o modelo (SSR) com fé, mas depois que comecei a realmente pensar sobre isso, não entendi por que funciona ...
A parte que eu não entendo:
: um valor observado de y
: a média de todos os s observados
: o valor ajustado / previsto de y para uma determinada observação x
: Residual / erro (se ao quadrado e somado para todas as observações, é SSE)
: quanto o valor ajustado do modelo difere da média (se ao quadrado e somado para todas as observações, isso é SSR)
: quanto um valor observado difere da média (se comparado e somado para todas as observações, esse é o SSTO).
Eu posso entender por que, para uma única observação, sem esquadrinhar nada, . E eu posso entender por que, se você deseja adicionar coisas a todas as observações, você precisa quadrá-las ou elas somam 0.
A parte que eu não entendo é o porquê (por exemplo, SSTO = SSR + SSE). Parece que se você tem uma situação em que , então , não . Por que não é esse o caso aqui? A = B + C A 2 = B 2 + 2 B C + C 2 A 2 = B 2 + C 2