Estimando coeficientes de regressão logística em um projeto de controle de caso quando a variável de resultado não é status de caso / controle

Considere amostragem de dados a partir de uma população de tamanho $N$ da seguinte forma: Para $k=1, ..., N$

Observar o status individual de "doença" de $k$
Se eles tiverem a doença, inclua-os na amostra com probabilidade $p_{k1}$
Se eles não tiverem a doença, inclua-os com probabilidade $p_{k0}$ .

Suponha-lhe observada uma variável de saída binário $Y_i$ e preditor vector ${\bf X}_i$ , para $i=1, ..., n$ sujeitos amostrados dessa maneira. A variável de resultado não é o status "doença". Quero estimar os parâmetros do modelo de regressão logística:

\log (\frac{P (Y_{i} = 1 | X_{i})}{P (Y_{i} = 0 | X_{i})}) = α + X_{i} β

$\log \left( \frac{ P(Y_i = 1 | {\bf X}_i) }{ P(Y_i = 0 | {\bf X}_i) } \right) = \alpha + {\bf X}_i {\boldsymbol \beta}$

Tudo o que me interessa são os índices de log (log), ${\boldsymbol \beta}$ . A interceptação é irrelevante para mim.

Minha pergunta é: Posso obter estimativas sensatas de ${\boldsymbol \beta}$ ignorando as probabilidades de amostragem $\{ p_{i1}, p_{i0} \}$ , $i=1, ..., n$ ajustando o modelo como se era uma amostra aleatória comum?

Estou quase certo de que a resposta a esta pergunta é "sim". O que estou procurando é uma referência que valide isso.

Há duas razões principais pelas quais estou confiante sobre a resposta:

Eu fiz muitos estudos de simulação e nenhum deles contradiz isso, e
É fácil mostrar que, se a população é governada pelo modelo acima, o modelo que governa os dados amostrados é

\log (\frac{P (Y_{i} = 1 | X_{i})}{P (Y_{i} = 0 | X_{i})}) = \log (p_{i 1}) - \log (p_{i 0}) + α + X_{i} β

$\log \left( \frac{ P(Y_i = 1 | {\bf X}_i) }{ P(Y_i = 0 | {\bf X}_i) } \right) = \log(p_{i1}) - \log(p_{i0}) + \alpha + {\bf X}_i {\boldsymbol \beta}$

Se as probabilidades de amostragem não dependessem de , isso representaria uma simples mudança para a interceptação e a estimativa pontual de claramente não seria afetada. Mas, se as compensações são diferentes para cada pessoa, essa lógica não se aplica completamente, pois você certamente obterá uma estimativa de pontos diferente, embora eu suspeite que algo semelhante ocorra. $i$ ${\boldsymbol \beta}$

Relacionado: O artigo clássico de Prentice e Pyke (1979) diz que os coeficientes de regressão logística de um caso-controle (com status de doença como resultado) têm a mesma distribuição que os coletados em um estudo prospectivo. Suspeito que esse mesmo resultado se aplique aqui, mas devo confessar que não entendo completamente cada pedaço do artigo.

Agradecemos antecipadamente por quaisquer comentários / referências.

logistic case-control-study

— Macro
fonte

Você afirma que "a variável de resultado não é o status da doença ". O que indica? Bem-vindo de volta ao CV, btw.

Y_{i} = 1

$Y_i=1$

— gung - Restabelece Monica

Y_{i}

$Y_i$ é uma variável diferente. O que quero dizer é que a variável que determina sua probabilidade de amostragem (geralmente o status da doença em um controle de caso) não é a mesma que a variável de resultado - pense na análise secundária de um conjunto de dados. Por exemplo, digamos que a amostra tenha sido gerada amostrando sistematicamente usuários de drogas e um conjunto adicional (com frequência correspondente, com certas covariáveis) de não usuários de drogas, mas a variável de resultado que você está estudando é outra medida comportamental. Nesse caso, o esquema de amostragem é um incômodo. Obrigado, btw!

— Macro

Essa é uma variação do modelo de seleção em econometria. A validade das estimativas usando apenas a amostra selecionada aqui depende da condição de . Aqui é o status da doença de . $\Pr\left(Y_{i}=1\mid X_{i},D_{i}=1\right)=\Pr\left(Y_{i}=1\mid X_{i},D_{i}=0\right)$ $D_i$ $i$

Para fornecer mais detalhes, defina as seguintes notações: e ; refere-se ao evento que está na amostra. Além disso, suponha que seja independente de por simplicidade. $\pi_{1}=\Pr\left(D_{i}=1\right)$ $\pi_{0}=\Pr\left(D_{i}=0\right)$ $S_{i}=1$ $i$ $D_{i}$ $X_{i}$

A probabilidade de para uma unidade na amostra é pela lei da expulsão iterada. Suponha que condicional ao status da doença e outras covariáveis , o resultado seja independente de . Como um resultado, $Y_{i}=1$ $i$

\begin{array}{rcl} Pr (Y_{i} = 1 ∣ X_{i}, S_{i} = 1) & = & E (Y_{i} ∣ X_{i}, S_{i} = 1) \\ = & E {E (Y_{i} ∣ X_{i}, D_{i}, S_{i} = 1) ∣ X_{i}, S_{i} = 1} \\ = & Pr (D_{i} = 1 ∣ S_{i} = 1) Pr (Y_{i} = 1 ∣ X_{i}, D_{i} = 1, S_{i} = 1) + \\ Pr (D_{i} = 0 ∣ S_{i} = 1) Pr (Y_{i} = 1 ∣ X_{i}, D_{i} = 0, S_{i} = 1), \end{array}

$\begin{eqnarray*} \Pr\left(Y_{i}=1\mid X_{i},S_{i}=1\right) & = & \mathrm{{E}}\left(Y_{i}\mid X_{i},S_{i}=1\right)\\ & = & \mathrm{{E}}\left\{ \mathrm{{E}}\left(Y_{i}\mid X_{i},D_{i},S_{i}=1\right)\mid X_{i},S_{i}=1\right\} \\ & = & \Pr\left(D_{i}=1\mid S_{i}=1\right)\Pr\left(Y_{i}=1\mid X_{i},D_{i}=1,S_{i}=1\right)+\\ & & \Pr\left(D_{i}=0\mid S_{i}=1\right)\Pr\left(Y_{i}=1\mid X_{i},D_{i}=0,S_{i}=1\right), \end{eqnarray*}$

D_{i}

$D_{i}$

X_{i}

$X_{i}$

Y_{i}

$Y_{i}$

S_{i}

$S_{i}$

\begin{array}{rcl} Pr (Y_{i} = 1 ∣ X_{i}, S_{i} = 1) & = & Pr (D_{i} = 1 ∣ S_{i} = 1) Pr (Y_{i} = 1 ∣ X_{i}, D_{i} = 1) + \\ Pr (D_{i} = 0 ∣ S_{i} = 1) Pr (Y_{i} = 1 ∣ X_{i}, D_{i} = 0) . \end{array}

$\begin{eqnarray*} \Pr\left(Y_{i}=1\mid X_{i},S_{i}=1\right) & = & \Pr\left(D_{i}=1\mid S_{i}=1\right)\Pr\left(Y_{i}=1\mid X_{i},D_{i}=1\right)+\\ & & \Pr\left(D_{i}=0\mid S_{i}=1\right)\Pr\left(Y_{i}=1\mid X_{i},D_{i}=0\right). \end{eqnarray*}$ É fácil ver que Aqui e são como seu esquema de amostragem definido. Portanto,

Pr (D_{i} = 1 ∣ S_{i} = 1) = \frac{π_{1} p_{i 1}}{π_{1} p_{i 1} + π_{0} p_{i 0}} and Pr (D_{i} = 0 ∣ S_{i} = 1) = \frac{π_{0} p_{i 0}}{π_{1} p_{i 1} + π_{0} p_{i 0}} .

$\Pr\left(D_{i}=1\mid S_{i}=1\right)=\frac{\pi_{1}p_{i1}}{\pi_{1}p_{i1}+\pi_{0}p_{i0}}\mbox{ and }\Pr\left(D_{i}=0\mid S_{i}=1\right)=\frac{\pi_{0}p_{i0}}{\pi_{1}p_{i1}+\pi_{0}p_{i0}}.$

p_{i 1}

$p_{i1}$

p_{i 0}

$p_{i0}$

Pr (Y_{i} = 1 ∣ X_{i}, S_{i} = 1) = \frac{π_{1} p_{i 1}}{π_{1} p_{i 1} + π_{0} p_{i 0}} Pr (Y_{i} = 1 ∣ X_{i}, D_{i} = 1) + \frac{π_{0} p_{i 0}}{π_{1} p_{i 1} + π_{0} p_{i 0}} Pr (Y_{i} = 1 ∣ X_{i}, D_{i} = 0) .

$\Pr\left(Y_{i}=1\mid X_{i},S_{i}=1\right)=\frac{\pi_{1}p_{i1}}{\pi_{1}p_{i1}+\pi_{0}p_{i0}}\Pr\left(Y_{i}=1\mid X_{i},D_{i}=1\right)+\frac{\pi_{0}p_{i0}}{\pi_{1}p_{i1}+\pi_{0}p_{i0}}\Pr\left(Y_{i}=1\mid X_{i},D_{i}=0\right).$ Se , temos e você pode omitir o problema de seleção de amostra. Por outro lado, se , em geral. Como um caso específico, considere o modelo de logit,

Pr (Y_{i} = 1 ∣ X_{i}, D_{i} = 1) = Pr (Y_{i} = 1 ∣ X_{i}, D_{i} = 0)

$\Pr\left(Y_{i}=1\mid X_{i},D_{i}=1\right)=\Pr\left(Y_{i}=1\mid X_{i},D_{i}=0\right)$

Pr (Y_{i} = 1 ∣ X_{i}, S_{i} = 1) = Pr (Y_{i} = 1 ∣ X_{i}),

$\Pr\left(Y_{i}=1\mid X_{i},S_{i}=1\right)=\Pr\left(Y_{i}=1\mid X_{i}\right),$

Pr (Y_{i} = 1 ∣ X_{i}, D_{i} = 1) \neq Pr (Y_{i} = 1 ∣ X_{i}, D_{i} = 0)

$\Pr\left(Y_{i}=1\mid X_{i},D_{i}=1\right)\neq\Pr\left(Y_{i}=1\mid X_{i},D_{i}=0\right)$

Pr (Y_{i} = 1 ∣ X_{i}, S_{i} = 1) \neq Pr (Y_{i} = 1 ∣ X_{i})

$\Pr\left(Y_{i}=1\mid X_{i},S_{i}=1\right)\neq\Pr\left(Y_{i}=1\mid X_{i}\right)$

Pr (Y_{i} = 1 ∣ X_{i}, D_{i} = 1) = \frac{e^{X_{i}^{'} α}}{1 + e^{X_{i}^{'} α}} and Pr (Y_{i} = 1 ∣ X_{i}, D_{i} = 0) = \frac{e^{X_{i}^{'} β}}{1 + e^{X_{i}^{'} β}} .

$\Pr\left(Y_{i}=1\mid X_{i},D_{i}=1\right)=\frac{e^{X_{i}'\alpha}}{1+e^{X_{i}'\alpha}}\mbox{ and }\Pr\left(Y_{i}=1\mid X_{i},D_{i}=0\right)=\frac{e^{X_{i}'\beta}}{1+e^{X_{i}'\beta}}.$ Mesmo quando e são constantes em , a distribuição resultante não manterá a formação do logit. Mais importante, as interpretações dos parâmetros seriam totalmente diferentes. Felizmente, os argumentos acima ajudam a esclarecer um pouco o seu problema.

p_{i 1}

$p_{i1}$

p_{i 0}

$p_{i0}$

i

$i$

É tentado incluir como uma variável explicativa adicional e estimar o modelo com base em . Para justificar a validade do uso de , precisamos provar que , que é equivalente à condição em que é uma estatística suficiente de . Sem mais informações sobre o seu processo de amostragem, não tenho certeza se é verdade. Vamos usar uma notação abstrata. A variável de observabilidade pode ser vista como função aleatória de e as outras variáveis aleatórias, por exemplo $D_{i}$ $\Pr\left(Y_{i}\mid X_{i},D_{i}\right)$ $\Pr\left(Y_{i}\mid X_{i},D_{i}\right)$ $\Pr\left(Y_{i}\mid X_{i},D_{i},S_{i}=1\right)=\Pr\left(Y_{i}\mid X_{i},D_{i}\right)$ $D_{i}$ $S_{i}$ $S_{i}$ $D_{i}$ $\mathbf{Z}_{i}$ . Denota . Se é independente de condicional em e , temos pela definição de independência. No entanto, se não é independente de após o condicionamento em e , intuitivamente contém algumas informações relevantes sobre e, em geral, não é esperado que $S_{i}=S\left(D_{i},\mathbf{Z}_{i}\right)$ $\mathbf{Z}_{i}$ $Y_{i}$ $X_{i}$ $D_{i}$ $\Pr\left(Y_{i}\mid X_{i},D_{i},S\left(D_{i},\mathbf{Z}_{i}\right)\right)=\Pr\left(Y_{i}\mid X_{i},D_{i}\right)$ $\mathbf{Z}_{i}$ $Y_{i}$ $X_{i}$ $D_{i}$ $\mathbf{Z}_{i}$ $Y_{i}$ $\Pr\left(Y_{i}\mid X_{i},D_{i},S\left(D_{i},\mathbf{Z}_{i}\right)\right)=\Pr\left(Y_{i}\mid X_{i},D_{i}\right)$ . Assim, no caso "no entanto", a ignorância da seleção da amostra pode ser enganosa por inferência. Não estou muito familiarizado com a literatura de seleção de amostras em econometria. Eu recomendaria que o Capítulo 16 de Microeconometrics: methods and applications' by Cameron and Trivedi (especially the Roy model in that chapter). Also G. S. Maddala's classic bookVariáveis qualitativas e dependentes limitadas da econometria seja um tratamento sistemático das questões sobre seleção de amostras e resultados discretos.

— semibruína
fonte

Obrigado. Esta é uma ótima resposta e faz todo o sentido. Na minha aplicação, a suposição de que não é realista. Mas, seria tão bom adicionar como um preditor e considerar a distribuição . Usando uma derivação semelhante, acho que você pode mostrar que se , então você está bem. Esta é uma suposição razoável no meu caso. O que você acha? BTW, você teria alguma referência que mencione esse problema? Eu não estou familiarizado com a literatura econométrica.

P (Y_{i} | X_{i}, D_{i} = 1) = P (Y_{i} | X_{i}, D_{i} = 0)

$P(Y_i|X_i,D_i=1)=P(Y_i|X_i,D_i=0)$

D_{i}

$D_i$

P (Y_{i} | X_{i}, D_{i})

$P(Y_i|X_i,D_i)$

P (Y_{i} = 1 | X_{i}, D_{i}, S_{i} = 1) = P (Y_{i} = 1 | X_{i}, D_{i}, S_{i} = 0)

$P(Y_i=1|X_i,D_i,S_i=1)=P(Y_i=1|X_i,D_i,S_i=0)$

— Macro

Estou confortável em pensar no processo de seleção como sendo um teste de bernoulli, ou seja, Sob essa suposição de geração de dados, esse teste de bernoulli é condicionalmente independente de , então acho que estamos bem. Agradeço seus esforços e insights sobre esse problema e estou aceitando a resposta. Supondo que ninguém venha com a referência exata que estou procurando (eu preferiria simplesmente "citar" esse problema, em vez de discordar com uma discussão prolongada), também recompensarei a você. Felicidades.

S_{i} | D_{i} = d, X_{i} = x \sim B e r n o u l l i (p (x, d))

$S_i | D_i=d, X_i=x \sim {\rm Bernoulli} \big( p(x, d) \big)$

Y_{i}

$Y_i$

— Macro

Esse processo de seleção se adapta à sua estratégia. Com base nesse problema de seleção, seu problema se torna um exemplo de falta aleatória (MAR) na literatura de dados ausentes. Obrigado pelo seu prêmio.

— Semibruin