Podemos provar isso para um caso mais geral de pvariáveis usando a "matriz de chapéu" e algumas de suas propriedades úteis. Esses resultados são geralmente muito mais difíceis de declarar em termos não matriciais, devido ao uso da decomposição espectral.
Agora, na versão matricial dos mínimos quadrados, a matriz do chapéu é H=X(XTX)−1XT Onde X tem n linhas e p+1 colunas (coluna de unidades para β0) Assuma a classificação completa da coluna por conveniência - caso contrário, você pode substituirp+1 pela classificação da coluna de Xna sequência. Podemos escrever os valores ajustados comoY^i=∑nj=1HijYj ou em notação matricial Y^=HY. Usando isso, podemos escrever a soma dos quadrados como:
∑i=1(Y−Yi^)2σ2=(Y−Y^)T(Y−Y^)σ2=(Y−HY)T(Y−HY)σ2
=YT(In−H)Yσ2
Onde In é uma matriz de identidade de ordem n. The last step follows from the fact that H is an idepotent matrix, as
H2=[X(XTX)−1XT][X(XTX)−1XT]=X(XTX)−1XT=H=HHT=HTH
Now a neat property of idepotent matrices is that all of their eigenvalues must be equal to zero or one. Letting e denote a normalised eigenvector of H with eigenvalue l, we can prove this as follows:
He=le⟹H(He)=H(le)
LHS=H2e=He=leRHS=lHe=l2e
⟹le=l2e⟹l=0 or 1
(note that e cannot be zero as it must satisfy eTe=1) Now because H is idepotent, In−H also is, because
(In−H)(In−H)=I−IH−HI+H2=In−H
We also have the property that the sum of the eigenvalues equals the trace of the matrix, and
tr(In−H)=tr(In)−tr(H)=n−tr(X(XTX)−1XT)=n−tr((XTX)−1XTX)
=n−tr(Ip+1)=n−p−1
Hence I−H must have n−p−1 eigenvalues equal to 1 and p+1 eigenvalues equal to 0.
Now we can use the spectral decomposition of I−H=ADAT where D=(In−p−10[p+1]×[n−p−1]0[n−p−1]×[p+1]0[p+1]×[p+1]) and A is orthogonal (because I−H is symmetric) . A further property which is useful is that HX=X. This helps narrow down the A matrix
HX=X⟹(I−H)X=0⟹ADATX=0⟹DATX=0
⟹(ATX)ij=0i=1,…,n−p−1j=1,…,p+1
and we get:
∑i=1(Y−Yi^)2σ2=YTADATYσ2=∑n−p−1i=1(ATY)2iσ2
Now, under the model we have Y∼N(Xβ,σ2I) and using standard normal theory we have ATY∼N(ATXβ,σ2ATA)∼N(ATXβ,σ2I) showing that the components of ATY are independent. Now using the useful result, we have that (ATY)i∼N(0,σ2) for i=1,…,n−p−1. The chi-square distribution with n−p−1 degrees of freedom for the sum of squared errors follows immediately.