Um comentário em outra pergunta levantou dúvidas sobre a importância da condição , argumentando que ela pode ser corrigida pela inclusão de um termo constante na especificação de regressão e, portanto, "ela pode ser facilmente ignorada".E(u∣X)=0
Isto não é verdade. A inclusão de um termo constante na regressão absorverá a média condicional possivelmente diferente de zero do erro, se assumirmos que essa média condicional já é uma constante e não uma função dos regressores . Esta é a suposição crucial que deve ser feita independentemente de incluirmos um termo constante ou não:
E(u∣X)=const.
Se este detém, em seguida, a média diferente de zero se torna um incômodo que pode simplesmente resolver através da inclusão de um termo constante.
Mas se isso não for válido (ou seja, se a média condicional não for uma constante zero ou não nula ), a inclusão do termo constante não resolverá o problema: o que "absorverá" nesse caso é uma magnitude isso depende da amostra específica e das realizações dos regressores. Na realidade, o coeficiente desconhecido associado à série de unidades não é realmente uma constante, mas variável, dependendo dos regressores através da média condicional não constante do termo de erro.
O que isso implica?
Para simplificar, assumir o caso mais simples, em que ( i indexa as observações) mas que E ( u i | x i ) = h ( x i ) . Ou seja, que o termo de erro é de média-independente das variáveis explicativas, exceto de seus queridos contemporâneas (em X nós não incluem uma série de ones).E(ui∣X−i)=0iE(ui∣xi)=h(xi)X
Suponha que especificamos a regressão com a inclusão de um termo constante (um regressor de uma série de um).
y=a+Xβ+ε
e notação de compactação
y=Zγ+ε
onde , Z = [ 1 : X ] , γ = ( um , p ) ' , ε = u - um .a=(a,a,a...)′Z=[1:X]γ=(a,β)′ε=u−a
Então o estimador OLS será
γ^=γ+(Z′Z)−1Z′ε
Para imparcialidade , precisamos de . MasE[ε∣Z]=0
E[εi∣xi]=E[ui−a∣xi]=h(xi)−a
que não pode ser zero para todos os , pois examinamos o caso em que h ( x i ) não é uma função constante. entãoih(xi)
E[ε∣Z]≠0⟹E(γ^)≠γ
e
Se , então mesmo que incluem um termo constante na regressão, os OLS estimador não vai ser imparcial , significando também que o resultado de Gauss-Markov em eficiência é perdidoE(ui∣xi)=h(xi)≠h(xj)=E(uj∣xj) .
Além disso, o termo de erro tem uma média diferente para cada i , e também uma variação diferente (ou seja, é condicionalmente heterocedástico). Portanto, sua distribuição condicional nos regressores difere entre as observações i . εii
Mas isso significa que, mesmo que o termo de erro é assumida normal, então a distribuição do erro de amostragem γ - γ será normal, mas não mormal de média zero, e com viés desconhecido. E a variação será diferente. entãouiγ^−γ
E(ui∣xi)=h(xi)≠h(xj)=E(uj∣xj)
Em outras palavras, as propriedades "amostra finita" desapareceram.
Ficamos apenas com a opção de recorrer a inferência assintoticamente válida , para a qual teremos que fazer suposições adicionais.
Em termos simples, a estrita exogeneidade não pode ser "facilmente ignorada" .