Eu li que o estimador 2SLS ainda é consistente, mesmo com a variável endógena binária ( http://www.stata.com/statalist/archive/2004-07/msg00699.html ). No primeiro estágio, um modelo de tratamento probit será executado em vez de um modelo linear.
Existe alguma prova formal para mostrar que o 2SLS ainda é consistente, mesmo quando o 1º estágio é um modelo probit ou logit?
E se o resultado também for binário? Entendo que, se tivermos um resultado binário e uma variável endógena binária (os primeiro e o segundo estágios são modelos probit / logit binários), imitar o método 2SLS produzirá uma estimativa inconsistente. Existe alguma prova formal para isso? O livro econométrico de Wooldridge tem alguma discussão, mas acho que não há provas rigorosas para mostrar a inconsistência.
data sim;
do i=1 to 500000;
iv=rand("normal",0,1);
x2=rand("normal",0,1);
x3=rand("normal",0,1);
lp=0.5+0.8*iv+0.5*x2-0.2*x3;
T=rand("bernoulli",exp(lp)/(1+exp(lp)));
Y=-0.8+1.2*T-1.3*x2-0.8*x3+rand("normal",0,1);
output;
end;
run;
****1st stage: logit model ****;
****get predicted values ****;
proc logistic data=sim descending;
model T=IV;
output out=pred1 pred=p;
run;
****2nd stage: ols model with predicted values****;
proc reg data=pred1;
model y=p;
run;
o coeficiente de p = 1.19984
. Eu executo apenas uma simulação, mas com um tamanho de amostra grande.