Repito medidas em 2 vezes em uma amostra de pessoas. Existem 18 mil pessoas no tempo 1 e 13 mil no tempo 2 (5000 perdidos no acompanhamento).
Quero regredir um resultado Y medido no tempo 2 (e o resultado não pode ser medido no tempo 1) no conjunto de preditores X medidos no tempo 1. Todas as variáveis têm alguns dados ausentes. A maioria parece relativamente aleatória, ou a falta parece bem descrita pelos dados observados. No entanto, a grande maioria da falta no resultado Y é devida à perda de acompanhamento. Usarei várias imputações (R :: mice) e usarei o conjunto de dados completo para atribuir valores a X, mas recebi 2 conselhos conflitantes sobre a imputação de Y:
1) Impute Y de X e V (V = variáveis auxiliares úteis) na amostra completa de 18k.
2) Não imputa Y em indivíduos perdidos no acompanhamento (e, portanto, os elimine de qualquer modelagem de regressão subsequente).
O primeiro faz sentido porque informação é informação; então, por que não usar tudo; Mas o último também faz sentido, de uma maneira mais intuitiva - parece errado atribuir o resultado para 5000 pessoas com base em Y ~ X + V, para depois se virar e estimar Y ~ X.
Qual é (mais) correto?
Esta pergunta anterior é útil, mas não aborda diretamente a falta devido à perda de acompanhamento (embora talvez a resposta seja a mesma; eu não sei).