O modelo linear geral permite escrever um modelo ANOVA como modelo de regressão. Vamos supor que temos dois grupos com duas observações cada, ou seja, quatro observações em um vetor . O modelo superparametrizado original é E ( y ) = X ⋆ β ⋆ , onde X ⋆ é a matriz de preditores, isto é, variáveis indicadoras codificadas por dummy:
( μ 1 μ 1 μ 2 μ 2 ) = ( 1 1 0 1 1 0 1 0 1 1 0yE(y)=X⋆β⋆X⋆
⎛⎝⎜⎜⎜μ1μ1μ2μ2⎞⎠⎟⎟⎟=⎛⎝⎜⎜⎜111111000011⎞⎠⎟⎟⎟⎛⎝⎜β⋆0β⋆1β⋆2⎞⎠⎟
((X⋆)′X⋆)−1(X⋆)′E(y)X⋆(X⋆)′X⋆β⋆1=0E(y)=Xβ
⎛⎝⎜⎜⎜μ1μ1μ2μ2⎞⎠⎟⎟⎟=⎛⎝⎜⎜⎜11110011⎞⎠⎟⎟⎟(β0β2)
μ1=β0β0μ2=β0+β2β2μ2−μ1 para a categoria de referência. Como em dois grupos, existe apenas um parâmetro associado ao efeito de grupo, a hipótese nula ANOVA (todos os parâmetros de efeito de grupo são 0) é igual à hipótese nula de peso de regressão (o parâmetro de inclinação é 0).
tψ=∑cjβjψ0c=(0,1)′β2=0μ2−μ1=0ψ^=∑cjβ^jβ^=(X′X)−1X′yψ
t=ψ^−ψ0σ^c′(X′X)−1c−−−−−−−−−√
σ^2=∥e∥2/(n−Rank(X)) is an unbiased estimator for the error variance, where ∥e∥2 is the sum of the squared residuals. In the case of two groups Rank(X)=2, (X′X)−1X′=(.5−.5.5−.50.50.5), and the estimators thus are β^0=0.5y1+0.5y2=M1 and β^2=−0.5y1−0.5y2+0.5y3+0.5y4=M2−M1. With c′(X′X)−1c being 1 in our case, the test statistic becomes:
t=M2−M1−0σ^=M2−M1∥e∥2/(n−2)−−−−−−−−−−√
t is t-distributed with n−Rank(X) df (here n−2). When you square t, you get (M2−M1)2/1∥e∥2/(n−2)=SSb/dfbSSw/dfw=F, the test statistic from the ANOVA F-test for two groups (b for between, w for within groups) which follows an F-distribution with 1 and n−Rank(X) df.
With more than two groups, the ANOVA hypothesis (all βj are simultaneously 0, with 1≤j) refers to more than one parameter and cannot be expressed as a linear combination ψ, so then the tests are not equivalent.