Eu tenho um conjunto de dados sobre ensaios agrícolas. Minha variável de resposta é uma taxa de resposta: log (tratamento / controle). Estou interessado no que medeia a diferença, por isso estou executando meta-regressões de ER (sem ponderação, porque parece bastante claro que o tamanho do efeito não está correlacionado com a variação de estimativas).
Cada estudo relata o rendimento de grãos, o rendimento de biomassa ou ambos. Não posso imputar a produção de grãos a partir de estudos que relatam somente a produção de biomassa, porque nem todas as plantas estudadas foram úteis para grãos (a cana-de-açúcar está incluída, por exemplo). Mas cada planta que produzia grãos também tinha biomassa.
Para covariáveis ausentes, tenho usado a imputação de regressão iterativa (seguindo o capítulo do livro-texto de Andrew Gelman). Parece dar resultados razoáveis, e todo o processo é geralmente intuitivo. Basicamente, prevejo os valores ausentes e os uso de valores preditos para prever valores ausentes, e percorro cada variável até que cada variável converja aproximadamente (na distribuição).
Existe alguma razão para não poder usar o mesmo processo para atribuir dados de resultados ausentes? Provavelmente, posso formar um modelo de imputação relativamente informativo para a taxa de resposta de biomassa, dada a taxa de resposta de grãos, o tipo de cultura e outras covariáveis que possuo. Eu então calculava a média dos coeficientes e VCVs e adicionava a correção do IM conforme a prática padrão.
Mas o que esses coeficientes medem quando os próprios resultados são imputados? A interpretação dos coeficientes é diferente do IM padrão para covariáveis? Pensando nisso, não consigo me convencer de que isso não funcione, mas não tenho muita certeza. Pensamentos e sugestões para o material de leitura são bem-vindos.