Gostaria de saber se alguém poderia fornecer algumas dicas sobre se uma imputação de dados ausentes é melhor do que simplesmente criar modelos diferentes para casos com dados ausentes. Especialmente no caso de modelos lineares [generalizados] (talvez eu possa ver em casos não lineares as coisas são diferentes)
Suponha que tenhamos o modelo linear básico:
Mas nosso conjunto de dados contém alguns registros com o ausente. No conjunto de dados de previsão onde o modelo será usado, também haverá casos de falta de X 3 . Parece haver duas maneiras de proceder:
Vários modelos
Poderíamos dividir os dados em casos e não X 3 e criar um modelo separado para cada um. Se supusermos que X 3 está intimamente relacionado a X 2 , o modelo de dados ausentes pode sobrepor X 2 para obter a melhor previsão de dois preditores. Além disso, se os casos de dados ausentes forem ligeiramente diferentes (devido ao mecanismo de dados ausentes), ele poderá incorporar essa diferença. No lado negativo, os dois modelos estão se ajustando apenas a uma parte dos dados cada e não estão "ajudando" um ao outro, portanto, o ajuste pode ser ruim em conjuntos de dados limitados.
Imputação
A regressão da imputação múltipla preencheria primeiro o construindo um modelo baseado em X 1 e X 2 e depois amostrando aleatoriamente para manter o ruído nos dados imputados. Como se trata de dois modelos novamente, isso não acabará sendo o mesmo que o método de modelo múltiplo acima? Se é capaz de superar o desempenho - de onde vem o ganho? Será que o ajuste para o X 1 é feito em todo o conjunto?
EDITAR:
Embora a resposta de Steffan até agora explique que o ajuste do modelo de caso completo nos dados imputados terá um desempenho superior ao dos dados completos, e parece óbvio que o inverso é verdadeiro, ainda há algum mal-entendido sobre a previsão de dados ausentes.
Se eu tiver o modelo acima, mesmo que esteja perfeitamente ajustado, em geral será um péssimo modelo de previsão se eu colocar zero na previsão. Imagine, por exemplo, que então X 2 é completamente inútil ( β 2 = 0 ) quando X 3 está presente, mas ainda seria útil na ausência de X 3 .
A principal pergunta que não entendo é: é melhor criar dois modelos, um usando e outro usando ( X 1 , X 2 , X 3 ) , ou é melhor criar um único ( completo) modele e use a imputação nos conjuntos de dados de previsão - ou são a mesma coisa?
Trazendo a resposta de Steffan, parece que é melhor criar o modelo de caso completo em um conjunto de treinamento imputado e, inversamente, é provavelmente melhor criar o modelo de dados ausentes no conjunto de dados completo com o descartado. Esta segunda etapa é diferente de usar um modelo de imputação nos dados da previsão?