Essa é uma variação do modelo de seleção em econometria. A validade das estimativas usando apenas a amostra selecionada aqui depende da condição de
. Aqui é o status da doença de .Pr(Yi=1∣Xi,Di=1)=Pr(Yi=1∣Xi,Di=0)Dii
Para fornecer mais detalhes, defina as seguintes notações:
e ; refere-se ao evento que está na amostra. Além disso, suponha que seja independente de por simplicidade.π1=Pr(Di=1)π0=Pr(Di=0)Si=1iDiXi
A probabilidade de para uma unidade na amostra é
pela lei da expulsão iterada. Suponha que condicional ao status da doença e outras covariáveis , o resultado
seja independente de . Como um resultado,
Yi=1i
Pr(Yi=1∣Xi,Si=1)===E(Yi∣Xi,Si=1)E{E(Yi∣Xi,Di,Si=1)∣Xi,Si=1}Pr(Di=1∣Si=1)Pr(Yi=1∣Xi,Di=1,Si=1)+Pr(Di=0∣Si=1)Pr(Yi=1∣Xi,Di=0,Si=1),
DiXiYiSiPr(Yi=1∣Xi,Si=1)=Pr(Di=1∣Si=1)Pr(Yi=1∣Xi,Di=1)+Pr(Di=0∣Si=1)Pr(Yi=1∣Xi,Di=0).
É fácil ver que
Aqui e são como seu esquema de amostragem definido. Portanto,
Pr(Di=1∣Si=1)=π1pi1π1pi1+π0pi0 and Pr(Di=0∣Si=1)=π0pi0π1pi1+π0pi0.
pi1pi0Pr(Yi=1∣Xi,Si=1)=π1pi1π1pi1+π0pi0Pr(Yi=1∣Xi,Di=1)+π0pi0π1pi1+π0pi0Pr(Yi=1∣Xi,Di=0).
Se , temos
e você pode omitir o problema de seleção de amostra. Por outro lado, se ,
em geral. Como um caso específico, considere o modelo de logit,
Pr(Yi=1∣Xi,Di=1)=Pr(Yi=1∣Xi,Di=0)Pr(Yi=1∣Xi,Si=1)=Pr(Yi=1∣Xi),
Pr(Yi=1∣Xi,Di=1)≠Pr(Yi=1∣Xi,Di=0)Pr(Yi=1∣Xi,Si=1)≠Pr(Yi=1∣Xi)
Pr(Yi=1∣Xi,Di=1)=eX′iα1+eX′iα and Pr(Yi=1∣Xi,Di=0)=eX′iβ1+eX′iβ.
Mesmo quando e são constantes em , a distribuição resultante não manterá a formação do logit. Mais importante, as interpretações dos parâmetros seriam totalmente diferentes. Felizmente, os argumentos acima ajudam a esclarecer um pouco o seu problema.
pi1pi0i
É tentado incluir como uma variável explicativa adicional e estimar o modelo com base em . Para justificar a validade do uso de , precisamos provar que , que é equivalente à condição em que é uma estatística suficiente de . Sem mais informações sobre o seu processo de amostragem, não tenho certeza se é verdade. Vamos usar uma notação abstrata. A variável de observabilidade pode ser vista como função aleatória de e as outras variáveis aleatórias, por exemploDiPr(Yi∣Xi,Di)Pr(Yi∣Xi,Di)Pr(Yi∣Xi,Di,Si=1)=Pr(Yi∣Xi,Di)DiSiSiDiZi . Denota . Se
é independente de condicional em e , temos
pela definição de independência. No entanto, se não é independente de após o condicionamento em e ,
intuitivamente contém algumas informações relevantes sobre
e, em geral, não é esperado queSi=S(Di,Zi)ZiYiXiDiPr(Yi∣Xi,Di,S(Di,Zi))=Pr(Yi∣Xi,Di)ZiYiXiDiZiYiPr(Yi∣Xi,Di,S(Di,Zi))=Pr(Yi∣Xi,Di) . Assim, no caso "no entanto", a ignorância da seleção da amostra pode ser enganosa por inferência. Não estou muito familiarizado com a literatura de seleção de amostras em econometria. Eu recomendaria que o Capítulo 16 de Microeconometrics: methods and applications' by Cameron
and Trivedi (especially the Roy model in that chapter). Also G. S.
Maddala's classic book
Variáveis qualitativas e dependentes limitadas da econometria seja um tratamento sistemático das questões sobre seleção de amostras e resultados discretos.