2SLS, mas Probit do segundo estágio

Estou tentando usar a análise de variáveis instrumentais para inferir causalidade com dados observacionais.

Eu me deparei com uma regressão de mínimos quadrados em dois estágios (2SLS) que provavelmente abordará a questão da endogeneidade em minha pesquisa. No entanto, eu gostaria que o primeiro estágio fosse OLS e o segundo estágio fosse probit no 2SLS. Com base na minha leitura e pesquisa, vi pesquisadores usarem 2SLS ou probit de primeiro estágio e OLS de segundo estágio, mas não o contrário, que é o que estou tentando alcançar.

Atualmente, estou usando o Stata e o comando ivreg no Stata é para um 2SLS direto.

— Veronica
fonte

Seu caso é menos problemático do que o contrário. Os operadores de expectativas e projeções lineares passam por um primeiro estágio linear (por exemplo, OLS), mas não por não lineares, como probit ou logit. Portanto, não é um problema se regredir primeiro seu contínuo endógeno variável no seu instrumento (s) , e, em seguida, utilizar os valores ajustados em uma segunda etapa de probit para estimar $X$ $Z$

X_{Eu} = uma + Z_{Eu}^{'} π + η_{Eu}

$X_i = a + Z'_i\pi + \eta_i$

Pr (Y_{Eu} = 1 1 | {\hat{X}}_{Eu}) = Pr (β {\hat{X}}_{Eu} + ϵ_{Eu} > 0 0)

$\text{Pr}(Y_i=1|\widehat{X}_i) = \text{Pr}(\beta\widehat{X}_i + \epsilon_i > 0)$

$\widehat{X}_i$

// use a toy data set as example
webuse nlswork

// set up the program including 1st and 2nd stage
program my2sls
    reg grade age race tenure
    predict grade_hat, xb

    probit union grade_hat age race
    drop grade_hat
end

// obtain bootstrapped standard errors
bootstrap, reps(100): my2sls

Neste exemplo, queremos estimar o efeito dos anos de escolaridade na probabilidade de pertencer a um sindicato. Dado que os anos de educação provavelmente são endógenos, nós os instrumentamos com anos de posse no primeiro estágio. Obviamente, isso não faz sentido do ponto de interpretação, mas ilustra o código.

Apenas certifique-se de usar as mesmas variáveis de controle exógenas no primeiro e no segundo estágio. No exemplo acima, são aqueles age, raceque o instrumento (não sensorial) tenureestá presente apenas no primeiro estágio.

— Andy
fonte

Muito obrigado, isso resolveu o problema que eu estava enfrentando. Obrigado novamente.

— Veronica

Na verdade, a pesquisa sugere usar uma abordagem de função de controle para modelos não lineares como um logit, que seria usar os resíduos do primeiro estágio juntamente com a variável endógena, em vez dos valores previstos. Embora pareça haver avanços frequentemente, consulte: stat.wharton.upenn.edu/~zijguo/…

— robin.datadrivers

Desculpe, não forneci uma citação para comparar as duas abordagens para modelos lineares e não lineares. ncbi.nlm.nih.gov/pmc/articles/PMC2494557

— robin.datadrivers

-1 Eu tive que rebaixar essa resposta, pois geralmente não é possível levar a idéia do estimador 2SLS para modelos não lineares no primeiro e / ou no segundo estágio. Pode ser verdade no caso do 1º estágio LS e do 2º estágio probit (@ Andy você tem uma referência para apoiar isso?), Mas pelo menos uma ressalva está em ordem, pois já vi muitas pessoas fazendo a ideia 2SLS de todos os tipos de casos de modelos não lineares no primeiro e no segundo estágio e essa é uma prática problemática.

— Momo