Em um estudo longitudinal, devo atribuir o resultado Y, medido no tempo 2, para indivíduos que perderam o acompanhamento?

10

Repito medidas em 2 vezes em uma amostra de pessoas. Existem 18 mil pessoas no tempo 1 e 13 mil no tempo 2 (5000 perdidos no acompanhamento).

Quero regredir um resultado Y medido no tempo 2 (e o resultado não pode ser medido no tempo 1) no conjunto de preditores X medidos no tempo 1. Todas as variáveis têm alguns dados ausentes. A maioria parece relativamente aleatória, ou a falta parece bem descrita pelos dados observados. No entanto, a grande maioria da falta no resultado Y é devida à perda de acompanhamento. Usarei várias imputações (R :: mice) e usarei o conjunto de dados completo para atribuir valores a X, mas recebi 2 conselhos conflitantes sobre a imputação de Y:

1) Impute Y de X e V (V = variáveis auxiliares úteis) na amostra completa de 18k.

2) Não imputa Y em indivíduos perdidos no acompanhamento (e, portanto, os elimine de qualquer modelagem de regressão subsequente).

O primeiro faz sentido porque informação é informação; então, por que não usar tudo; Mas o último também faz sentido, de uma maneira mais intuitiva - parece errado atribuir o resultado para 5000 pessoas com base em Y ~ X + V, para depois se virar e estimar Y ~ X.

Qual é (mais) correto?

Esta pergunta anterior é útil, mas não aborda diretamente a falta devido à perda de acompanhamento (embora talvez a resposta seja a mesma; eu não sei).

Imputação múltipla para variáveis de resultado

panel-data multiple-imputation

— DL Dahly
fonte

Isso parece contraditório para mim - você pode explicar ?: "A maioria parece relativamente aleatória, ou a falta parece bem descrita pelos dados observados".

— Rolando2 26/05

11

A imputação múltipla e a maioria dos outros procedimentos de imputação exigem que seus dados estejam ausentes aleatoriamente (MAR). Seria necessário entender o mecanismo de atrito em seu estudo. Eu suspeitaria que, em seus estudos de acompanhamento, no entanto, seus valores ausentes provavelmente não são MAR ou MCAR.

— StatsStudent

2

Eu acho que este é um caso de instrumentação. Você quer um X ausente, não um Y ausente.

Y~X

Mas X freqüentemente está ausente ou mal mensurado.

X~Z and Z does not impact Y- except through X.

Então você pode executar:

 X~Z
 Y~Predicted(X)

E requer algum ajuste para os erros padrão.

Você também pode querer observar o procedimento da etapa Heckmann 2 se tiver muito atrito de amostra. http://en.wikipedia.org/wiki/Heckman_correction

— RegressForward
fonte

2

Eu argumentaria que nenhum dos dois é o mais apropriado.

$X$ $Y$

A eliminação de todos os dados ausentes dos seus dados faz com que seus parâmetros fiquem tendenciosos (se os dados não forem MCAR, veja acima) e reduz significativamente a precisão de suas estimativas. Esta é uma análise de "caso completo" e é desaconselhável.

$Y$

— Matt Brems
fonte