Solução
A álgebra matricial pode ser desanimadora e, se não for realizada com elegância, pode exigir uma enorme quantidade de manipulação algébrica (supérflua). No entanto, a situação é muito mais simples do que parece, porque (criando a matriz colocando uma coluna de unidades primeiro e depois a coluna de valores independentes depois)X(xi)
X′X=(nSxSxSxx)
e
X′y=(SySxy)
( são abreviações úteis e razoavelmente comuns para somas das variáveis e seus produtos). Assim, as equações normais para as estimativas são - quando escritas como equações lineares simultâneas - meramenteS∗β^=(β^0,β^1)
nβ^0+Sxβ^1=SySxβ^0+Sxxβ^1=Sxy,
que devem ser resolvidos para e Na verdade, você realmente não precisa resolver esse ab initio: tudo o que você precisa fazer neste momento é verificar qual fórmula para realmente funciona. Isso requer apenas álgebra elementar. Não mostrarei porque existe uma maneira melhor de produzir o mesmo resultado de uma maneira muito mais esclarecedora e generalizável.β^0β^1.β^1
Motivação e Generalização
Lembre-se de que as equações normais são derivadas considerando o problema de minimizar a soma dos quadrados dos resíduos,
SSR=∑i(yi−(β0+β1xi))2.
O aparecimento de corresponde a uma coluna de uns em , enquanto o aparecimento de corresponde a uma coluna em . Em geral, essas colunas não são ortogonais. (Lembre-se de que dizemos que dois vetores são ortogonais quando o produto escalar é zero. Geometricamente, isso significa que eles são perpendiculares. Consulte as referências para saber mais sobre isso.) Podemos torná-los ortogonais subtraindo alguns múltiplos de um deles do outro. A escolha mais fácil é subtrair uma constante de cada para tornar o resultado ortogonal à coluna constante; isto é, buscamos um número para o qualβ0Xβ1(xi)Xxic
0=(1,1,…,1)⋅(x1−c,x2−c,…,xn−c)=∑i(1(xi−c))=Sx−nc.
A solução exclusiva é claramente a média do Portanto, vamos reescrever o modelo em termos das variáveis "centralizadas" Ele nos pede para minimizarc=Sx/n=x¯,xi.xi−x¯.
SSR=∑i(yi−(β0+β1x¯+β1(xi−x¯)))2.
Para simplificar, escreva o termo constante desconhecido como
α=β0+β1x¯,
entendendo que, uma vez que as soluções e são obtidas, encontramos facilmente a estimativaα^β^1
β^0=α^−β^1x¯.
Em termos de incógnitas as equações normais são agora(α^,β^1)
(n00∑i(xi−x¯)2)(α^β^1)=(Sy∑i(xi−x¯)yi).
Quando escritas como duas equações lineares simultâneas, cada desconhecido é isolado em sua própria equação, o que é simples de resolver: é o que obtém colunas ortogonais emX Em particular, a equação para éβ^1
∑i(xi−x¯)2 β^1=∑i(xi−x¯)yi.
É um passo algébrico curto e simples desta para o resultado desejado. (Use o fato de que )∑i(xi−x¯)y¯=0.
A generalização para várias variáveis ocorre da mesma maneira: na primeira etapa, subtraia múltiplos adequados da primeira coluna de de cada uma das outras colunas para que todas as colunas resultantes sejam ortogonais à primeira coluna. (Lembre-se de que isso se resume a resolver uma equação linear para uma constante desconhecida que é fácil.) Repita subtraindo múltiplos adequados da segundaXc,coluna das (novas) terceira, quarta, ..., etc. colunas para torná-las ortogonais às duas primeiras colunas simultaneamente. Continue "varrendo" as colunas dessa maneira até que elas sejam mutuamente ortogonais. As equações normais resultantes envolverão no máximo uma variável por vez e, portanto, são simples de resolver. Finalmente, as soluções precisam ser convertidas novamente nas variáveis originais (assim como você precisa converter as estimativas e novamente em uma estimativa de no caso de regressão comum). A cada passo do caminho, tudo o que você está fazendo é criar novas equações a partir das antigas e resolver uma única variável de cada vez.α^β^1β^0
Referências
Para uma explicação mais formal dessa abordagem para resolver as equações normais, consulte Ortogonalização de Gram-Schmidt .
Seu uso na regressão múltipla é discutido por Lynne Lamotte em The Gram-Schmidt Construction como base para modelos lineares , The American Statistician 68 (1), fevereiro de 2014.
Para ver como encontrar apenas uma estimativa de coeficiente sem precisar calcular as outras, consulte a análise em https://stats.stackexchange.com/a/166718/919 .
Para uma interpretação geométrica, consulte minhas respostas em https://stats.stackexchange.com/a/97881/919 , https://stats.stackexchange.com/a/113207/919 ,