Esta é realmente uma pergunta interessante que desafia seu entendimento básico de uma regressão.
Primeiro elimine qualquer confusão inicial sobre notação. Estamos olhando para a regressão:
y=b0+b1x+u^
em que b0 e b1 são os estimadores da verdadeira β0 e β1 , e u são os resíduos da regressão. Observe que a regressão verdadeira e não servida subjacente é, portanto, denotada como:u^
y=β0+β1x+u
Com a expectativa de E[u]=0 e variância E[u2]=σ2 . Alguns livros denotam b como β e nós adaptar esta convenção aqui. Também usamos a notação matricial, onde b é o vetor 2x1 que contém os estimadores de β = [ β 0 , β 1 ] ′ , ou seja, b = [ b 0 , b 1 ] ′β^β=[β0,β1]′b=[b0,b1]′. (Também por uma questão de clareza, trato X como fixado nos cálculos a seguir).
Agora a sua pergunta. Sua fórmula para a covariância é realmente correta, ou seja:
σ(b0,b1)=E(b0b1)−E(b0)E(b1)=E(b0b1)−β0β1
Eu acho que você quer saber como é que temos os verdadeiros coeficientes não observados β0,β1 nesta fórmula? Eles são cancelados se dermos um passo adiante ao expandir a fórmula. Para ver isso, observe que a variação populacional do estimador é dada por:
Var(β^)=σ2(X′X)−1
Essa matriz mantém as variações nos elementos diagonais e covariâncias nos elementos fora da diagonal.
To arrive to the above formula, let's generalize your claim by using matrix notation. Let us therefore denote variance with Var[⋅] and expectation with E[⋅].
Var[b]=E[b2]−E[b]E[b′]
Essencialmente, temos a fórmula geral de variação, usando apenas a notação matricial. A equação resolve quando substitui na expressão padrão o estimador b=(X′X)−1X′y . Suponha também que E[b]=β seja um estimador imparcial. Portanto, obtemos:
E[((X′X)−1X′y)2]−β22×2
Note that we have on the right hand side β2 - 2x2 matrix, namely bb′, but you may at this point already guess what will happen with this term shortly.
Replacing y with our expression for the true underlying data generating process above, we have:
E[((X′X)−1X′y)2]−β2=E[((X′X)−1X′(Xβ+u))2]−β2=E[((X′X)−1X′X=Iβ+(X′X)−1X′u)2]−β2=E[(β+(X′X)−1X′u)2]−β2=β2+E[(X′X)−1X′u)2]−β2
since E[u]=0. Furthermore, the quadratic β2 term cancels out as anticipated.
Thus we have:
Var[b]=((X′X)−1X′)2E[u2]
By linearity of expectations. Note that by assumption E[u2]=σ2 and ((X′X)−1X′)2=(X′X)−1X′X(X′X)′−1=(X′X)−1 since X′X is a K×K symetric matrix and thus the same as its transpose. Finally we arrive at
Var[b]=σ2(X′X)−1
Now that we got rid of all β terms. Intuitively, the variance of the estimator is independent of the value of true underlying coefficient, as this is not a random variable per se. The result is valid for all individual elements in the variance covariance matrix as shown in the book thus also valid for the off diagonal elements as well with β0β1 to cancel out respectively. The only problem was that you had applied the general formula for the variance which does not reflect this cancellation at first.
Ultimately, the variance of the coefficients reduces to σ2(X′X)−1 and independent of β. But what does this mean? (I believe you asked also for a more general understanding of the general covariance matrix)
Look at the formula in the book. It simply asserts that the variance of the estimator increases for when the true underlying error term is more noisy (σ2 increases), but decreases for when the spread of X increases. Because having more observations spread around the true value, lets you in general build an estimator that is more accurate and thus closer to the true β. On the other hand, the covariance terms on the off-diagonal become practically relevant in hypothesis testing of joint hypotheses such as b0=b1=0. Other than that they are a bit of a fudge, really. Hope this clarifies all questions.