Independência média condicional implica imparcialidade e consistência do estimador OLS


10

Considere o seguinte modelo de regressão múltipla:

(1)Y=Xβ+Zδ+U.

Aqui é um vetor n \ vezes 1 coluna; Matriz X a n \ times (k + 1) ; \ beta a (k + 1) \ vezes 1 vetor de coluna; Z a n \ vezes l matriz; \ delta a l \ times 1 vetor de coluna; e U , o termo do erro, um vetor de coluna n \ times1 .Yn×1Xn×(k+1)β(k+1)×1Zn×lδl×1Un×1


QUESTÃO

Meu professor, o livro Introdução à Econometria, 3ª ed. por James H. Stock e Mark W. Watson, p. 281, e Econometria: Sessão de Revisão do Exame de Honra (PDF) , p. 7, expressou o seguinte para mim.

  1. Se assumirmos o que é chamado de independência média condicional , que por definição significa que
    (2)E(U|X,Z)=E(U|Z),
  2. e se a suposição de mínimos quadrados for satisfeita, exceto a suposição condicional média zero E(U|X,Z)=0 (então assumimos E(U|X,Z)=E(U|Z)0 ) (consulte 1 -3 abaixo),

  3. então, o estimador OLS β^ de β em (1) permanece imparcial e consistente, sob esse conjunto mais fraco de suposições.

Como provo essa proposição? Ou seja, os itens 1 e 2 acima implicam que a estimativa OLS de nos fornece um estimador imparcial e consistente para ? Existe algum artigo de pesquisa que comprove essa proposição?ββ


COMENTE

O caso mais simples é dado considerando-se o modelo de regressão linear e provando que a OLS estima de é imparcial se para cada .

Yi=β0+β1Xi+β2Zi+ui,i=1,2,,n,
β^1β1E(ui|Xi,Zi)=E(ui|Zi)i

PROVA DE UNBIASEDNESS, ASSUMINDO QUE E SÃO DISTRIBUÍDOS CONJUNTAMENTEUiZi

Defina e eAssim pode ser reescrito como Por segue-se que Agora, como e são normalmente distribuídos em conjunto, a teoria das distribuições normais, cf. Derivando as distribuições condicionais de uma distribuição normal multivariada , diz que (de fato, não precisamos assumir a normalidade das articulações, mas apenas essa identidade) para alguns por vetorV=UE(U|X,Z)U=V+E(U|X,Z)

(*)E(V|X,Z)=0.
(1)
(3)Y=Xβ+Zδ+E(U|X,Z)+V.
(2)
(4)Y=Xβ+Zδ+E(U|Z)+V.
UiZiE ( U | Z ) = Z γ l 1 γ 0
(**)E(U|Z)=Zγ
l1γ0 .

Agora torna-se Para o modelo todas as suposições de mínimos quadrados são satisfeitas, pois o termo de erro satisfaz a suposição de condições condicionais. significa zero. Isso implica que a estimativa de OLS de será imparcial, pois se deixarmos e deixar ser o por matriz composta de e , a estimativa de OLS de em é dada considerando o seguinte:(4)

(5)Y=Xβ+Z(δ+γ)+V.
(5)Vp p p = δ + γ W = ( X , Z ) n ( k + 1β^βρ=δ+γW=(X,Z)n(k+1)+lXZβ(5)
(β^T,ρ^T)T=(WTW)1WTY=(WTW)1WT(W(βT,ρT)T+V)=(βT,ρT)T+(WTW)1WTV

e assim onde a segunda linha segue por . Portanto, é uma estimativa condicionalmente imparcial de já que a estimativa do OLS fornecida para o modelo coicida com a fornecida para o modelo . Agora, pela lei da expectativa total e, portanto, é um estimador imparcial para .

E((β^T,ρ^T)T|W)=(βT,ρT)T+(WTW)1WsTE(V|W)=(βT,ρT)T+(WTW)1WT0=(βT,ρT)T,
()β β ( 1 ) ( 5 ) E ( β )β^β(1)(5)
E(β^)=E(E(β^|W))=E(β)=β,
β ββ^β

(Pode-se observar que , de modo que o coeficiente em não seja necessariamente imparcial.)E(ρ^)=ρ=δ+γδZ

No entanto, o caso especial acima pressupõe que e são normalmente distribuídos em conjunto. Como provar a proposição sem essa suposição?UiZi

Supondo que sempre suficiente, é claro (cf. ), mas devo derivar o resultado apenas usando e a suposição de mínimos quadrados, excluindo a suposição Condial Mean Zero ( ver abaixo).E(U|Z)=Zγ()(2)

RELATIVO À CONSISTÊNCIA

Penso que também se pode ver que a estimativa é consistente para observando que no modelo de regressão todas as suposições de mínimos quadrados são satisfeitas, incluindo a suposição de que o (novo) termo de erro satisfaz a Suposição Condicional do Zero Médio (cf. e veja abaixo).β^β(5)V()

Posso acrescentar uma prova de consistência mais tarde, baseada em uma série de exercícios em Introdução à Econometria, 3ª ed. por James H. Stock e Mark W. Watson, cap. 18. No entanto, essa prova é bastante longa. Mas o ponto aqui é que a prova fornecida nos exercícios assume , então ainda estou me perguntando se a suposição realmente é suficiente.()(2)

SUBQUERY 1

Em Introdução à Econometria, 3ª ed. por James H. Stock e Mark W. Watson, diz-se, na p. 300, que a suposição pode ser "relaxada" usando a teoria da regressão não linear. O que eles podem ou querem dizer com isso?()

AS PRIMEIRAS PREMISSAS PRAÇAS

Excluo aqui a suposição condicional do zero médio que pois a proposição que tentamos provar aqui permite casos em que . Estes são por exemplo, os casos quando está correlacionada com . Cf. Econometria: Sessão de Revisão do Exame de Honra (PDF) , p. 7)E(U|X,Z)=0E(U|X,Z)0ZU

A suposição de mínimos quadrados é a seguinte.

  1. As distribuições conjuntas de , são iid, onde é o -ésimo elemento em e onde e são os vetores de linha em e .(Yi,Xi,Zi)i=1,2,,n,YiiYXiZiiXZ

  2. Grandes valores atípicos é improvável, ou seja, para cada , e tem finitos quarto momentos, onde é o : th elemento em .iXi,ZiUiUiiU

  3. (X,Z) possui uma classificação de coluna completa (ou seja, não há multicolinearidade perfeita; isso garante a inversibilidade de ).WTW

  4. ( Premissas estendidas de mínimos quadrados : embora eu ache que isso não seja necessário (e me foi dito que não é), também podemos assumir a homosquasticidade, ou seja, para cada , e que a distribuição condicional de fornecida é normal para cada (ou seja, temos erros normais.))Var(Ui|Xi,Zi)=σU2iUi(Xi,Zi)i

NOTA SOBRE TERMINOLOGIA

Em , a suposição Condial Mean Zero é a suposição de que . A suposição Condicional da Independência Média, no entanto, é a suposição de que .(1)E(U|X,Z)=0E(U|X,Z)=E(U|Z)

Essa terminologia é usada, por exemplo, em Introdução à Econometria, 3ª ed. por James H. Stock e Mark W. Watson, p. 281; e Econometria Analysis of Cross Section and Panel Data, 1ª ed. por Jeffrey M. Wooldridge, p. 607. Consulte também Restrições de independência condicional: teste e estimativa para discussões semelhantes.

PENSAMENTOS ADICIONAIS E SUBSTITUIÇÃO 2

Penso que, contrariamente a James H. Stock e Mark W. Watson, a independência média condicional não garante uma estimativa imparcial de da OLS . Isso ocorre porque pode assumir formas não lineares como que é um polinômio em ou onde é algum parâmetro ainda a ser estimado (aqui estou usando a exponencial da matriz ) e, então, acho que a regressão não linear deve ser aplicada, o que geralmente nos deixa com estimativas tendenciosas. Além disso, a estimativa de OLS em (1) de pode nem coincidir com a estimativa de OLS deβE(U|Z)E(U|Z)=p(Z)p(Z)ZE(U|Z)=exp(Zγ)γββ( 4 ) E ( U | Z )em se assume certas formas não lineares. (Psicologicamente, também acho que a afirmação feita no livro de Stock & Watson é boa demais para ser verdadeira.)(4)E(U|Z)

Assim, uma pergunta adicional é se existe algum contraexemplo à proposição de que a independência média condicional leva a uma estimativa OLS imparcial?

SUBQUERY 3

Em Econometrics principalmente inofensivos, Angrist & Pischke argumentam na subseção 3.3, p. 68--91, que sob independência condicional (IC), ou seja, sendo independente de dado (que é uma condição mais forte, eu acho, do que a suposição de independência média condicional dada acima), existe uma conexão estreita entre estimativas correspondentes de o efeito de em e os coeficientes em na regressão de em e que motiva que, sob CI, a estimativa OLS do coeficiente em emYXWXYXYXWX(1) é menos tendencioso do que se o IC não se mantiver (tudo o resto é igual).

Agora, essa idéia pode de alguma forma ser usada para responder à minha pergunta principal aqui?


@ Xi'an O que você quer dizer? Essa é a definição de independência média condicional dada no meu livro: Se na regressão linear temos , então dizemos que temos independência média condicional. Eu apenas pensei que minha maneira de escrever era mais geral. E ( u i | X i , Z i ) = E ( u i | Z i )Yi=β0+β1Xi+β2Zi+uiE(ui|Xi,Zi)=E(ui|Zi)
Elias

@ Xi'an Como você definiria "independência condicional $ ce" neste caso? Na minha opinião, "independência condicional" é um conceito distinto de "independência média condicional". Eles podem ou não estar conceitualmente vinculados.
Elias

@ Xi'an É assim que eu entendo os conceitos: Independência condicional é apenas , mas a independência média condicional é . E ( A | B , C ) = E (P(AB|C)=P(A|C)P(B|C)E(A|B,C)=E(A|C)
Elias

Onde está o comentário de Xi'an?
Michael R. Chernick

@MichaelChernick O comentário dele foi o primeiro. Eu acho que ele deve ter excluído. Pelo que me lembro, ele disse que não implica independência condicional, e eu respondi. E(U|X,Z)=E(U|Z)
Elias

Respostas:


4

É falso. Como você observa, se você ler Stock e Watson de perto, eles realmente não endossam a alegação de que o OLS é imparcial para sob independência média condicional. Eles endossam a alegação muito mais fraca de que o OLS é imparcial para se . Eles dizem algo vago sobre os mínimos quadrados não lineares.β E ( u | x , z ) = z γββE(u|x,z)=zγ

Sua equação (4) contém o que você precisa para ver que a afirmação é falsa. Estimar a equação (4) pelo OLS enquanto omitimos a variável leva ao viés das variáveis ​​omitidas. Como você provavelmente se lembra, o termo de viés das variáveis ​​omitidas (quando a variável omitida tem um coeficiente de 1) é controlado pelos coeficientes da seguinte regressão auxiliar: O viés na regressão original para é dessa regressão, e o viés em é . Se estiver correlacionado com , após o controle linear deE(u|x,z) βα1γ

E(u|z)=xα1+zα2+ν
βα1γ x E ( u | z ) z α 1α2xE(u|z)z , então será diferente de zero e o coeficiente OLS será enviesado.α1

Aqui está um exemplo para provar o ponto:

ξF(),ζG(),νH()all independentz=ξx=z2+ζu=z+z2E(z+z2)+ν

Observando a fórmula para , fica claro que Observando a regressão auxiliar, é claro que (na ausência de uma escolha fortuita de ) não será zero.E ( u | x , z ) = E ( u | z ) = z + z 2 - E (uF , G , H α 1E(u|x,z)=E(u|z)=z+z2E(z+z2)F,G,Hα1

Aqui está um exemplo muito simples no Rqual demonstra o ponto:

set.seed(12344321)
z <- runif(n=100000,min=0,max=10)
x <- z^2 + runif(n=100000,min=0,max=20)
u <- z + z^2 - mean(z+z^2) + rnorm(n=100000,mean=0,sd=20)
y <- x + z + u

summary(lm(y~x+z))

# auxiliary regression
summary(lm(z+z^2~x+z))

Observe que a primeira regressão fornece um coeficiente de que é enviesado em 0,63, refletindo o fato de que "possui algum ", como . Observe também que a regressão auxiliar fornece uma estimativa de viés de cerca de 0,63.x z 2 E ( u | z )xxz2E(u|z)

Então, sobre o que Stock e Watson (e seu professor) estão falando? Vamos voltar à sua equação (4):

y=xβ+zγ+E(u|z)+v

É um fato importante que a variável omitida é apenas uma função de . Parece que se pudéssemos controlar muito bem, isso seria suficiente para eliminar o viés da regressão, mesmo que possa estar correlacionado com .z x uzzxu

Suponha que estimamos a equação abaixo usando um método não paramétrico para estimar a função ou usando a forma funcional correta . Se estivéssemos usando a forma funcional correta, a estimaríamos por mínimos quadrados não lineares (explicando o comentário enigmático sobre NLS): Isso nos daria um estimador consistente para porque não há mais um problema de variável omitida. f ( z ) = z γ + E ( u | z )f()f(z)=zγ+E(u|z) β

y=xβ+f(z)+v
β

Como alternativa, se tivéssemos dados suficientes, poderíamos ir `` até o fim '' no controle do . Poderíamos examinar um subconjunto dos dados em que e executar a regressão: Isso forneceria estimadores imparciais e consistentes para o exceto por a interceptação, é claro, que seria poluída por . Obviamente, você também pode obter um estimador imparcial consistente (diferente) executando essa regressão apenas nos pontos de dados para os quais . E outro para os pontos em que . Etc. Então você tem um monte de bons estimadores dos quais você pode fazer um ótimo estimador, digamos, calculando a média de todos eles de alguma forma.z = 1 y = x β + vzz=1

y=xβ+v
f ( 1 ) z = 2 z = 3βf(1)z=2z=3

Este último pensamento é a inspiração para a correspondência de estimadores. Como geralmente não temos dados suficientes para literalmente executar a regressão apenas para ou mesmo para pares de pontos onde é idêntico, em vez disso, executamos a regressão para pontos onde é `` próximo o suficiente '' para ser idêntico.z zz=1zz


3

Você não pode provar este resultado porque não é verdadeiro em sua afirmação geral. Comece com o modelo em sua eq. (4)

Y=Xβ+Zδ+(E(U|Z)+V)

onde o grande parêntese denota o termo de erro real (ainda não há suposições sobre a expectativa condicional). Defina a matriz resíduos ou aniquilador , que é simétrica, idempotente e também temos . M Z Z= 0MZ=IZ(ZZ)1ZMZZ=0

Por "resultados de regressão divididos", temos que

β^OLSβ=(XMZX)1XMZZδ+(XMZX)1XMZE(UZ)+(XMZX)1XMZV

O primeiro termo à direita já é zero. Considerando o valor esperado e aplicando a propriedade da torre para a expectativa condicional, o terceiro termo também será zero (usando a independência média condicional em sua forma mais fraca). Mas é até onde essa suposição mais fraca nos leva, porque ficaremos com

E(β^OLS)β=E[(XMZX)1XMZE(UZ)]

Por imparcialidade , queremos que o lado direito seja zero. Isso será válido se for uma função linear de (como você também encontrou), porque obteremos novamente o zero . Mas, caso contrário, é totalmente arbitrário assumir diretamente que todo o valor esperado é zero. Não precisamos assumir a nortmalidade conjunta, mas temos que assumir a linearidade dessa expectativa condicional (outras distribuições também têm essa propriedade). Portanto, a suposição necessária para a imparcialidade de éE(UZ)ZMZZ
β

E(UX,Z)=E(UZ)=Zγ

e não posso dizer se é realmente "mais fraco" ou não, em comparação com a estrita exogeneidade de todos os regressores (uma vez que a estrogenidade exposta é declarada em termos de independência média para todas as premissas distributivas, enquanto aqui temos que restringir as classes de distribuição que e siga).UZ

Não é difícil mostrar que, nessa suposição de linearidade, também será consistente.β^OLS


Boa resposta! Eu li isso há muito tempo e pensei em pensar nisso mais tarde. Tenho algumas perguntas: como você pode provar seus resultados de regressão particionada? Eu apreciaria pelo menos uma referência. Além disso, qual é a diferença entre e ? M zMZMz
Elias Elias

11
@ Monir e apenas um erro de digitação - corrigido. Para obter resultados de regressão particionada (que são muito antigos e padrão), consulte, por exemplo, o livro de Econometria de Greene, no capítulo em que discute o aspecto algébrico da estimativa de mínimos quadrados comuns. Inclui a prova. zZz
Alecos Papadopoulos
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.