A imputação múltipla é bastante direta quando você tem um modelo linear a priori que deseja estimar. No entanto, as coisas parecem um pouco mais complicadas quando você realmente deseja fazer uma seleção de modelo (por exemplo, encontre o "melhor" conjunto de variáveis preditoras a partir de um conjunto maior de variáveis candidatas - estou pensando especificamente no LASSO e em polinômios fracionários usando R).
Uma idéia seria ajustar o modelo nos dados originais com os valores ausentes e, em seguida, reestimar esse modelo nos conjuntos de dados de MI e combinar estimativas como faria normalmente. No entanto, isso parece problemático, pois você espera um viés (ou então por que o MI em primeiro lugar?), O que pode levar à seleção de um modelo "errado" desde o início.
Outra idéia seria passar por qualquer processo de seleção de modelo que você esteja usando em cada conjunto de dados de MI - mas como você combinaria os resultados se eles incluíssem conjuntos diferentes de variáveis?
Um pensamento que eu tinha era empilhar um conjunto de conjuntos de dados de MI e analisá-los como um grande conjunto de dados que você usaria para ajustar um único modelo "melhor" e incluir um efeito aleatório para explicar o fato de que você está usando medidas repetidas para cada observação.
Isso soa razoável? Ou talvez incrivelmente ingênuo? Qualquer indicação sobre esse assunto (seleção de modelo com imputação múltipla) seria muito apreciada.