Você anotou corretamente o estimador agrupado:
U¯=1m∑i=1mUi
Onde representa os resultados analíticos do ésimo conjunto de dados imputados. Normalmente, os resultados analíticos têm uma distribuição aproximada normal da qual extraímos inferência ou criamos limites de confiança. Isso é feito principalmente usando o valor médio ( ) e seu erro padrão. Testes-T, regressões lineares, regressões logísticas e basicamente a maioria das análises podem ser adequadamente resumidos em termos desse valor e seu erro padrão .UiiUiUise(Ui)
As Regras de Rubin usam a lei da variação total para anotar a variação como a soma de uma variação entre e dentro da imputação:
var(U¯)=E[var(U¯|Ui)]+var(E[U¯|Ui])
O primeiro termo é a variação interna tal que que é a variação do resultado da análise do ésimo conjunto de dados completo ou imputado. O último termo é a variação entre imputações: . Eu nunca compreendi bem a correção de DF aqui, mas essa é basicamente a abordagem aceita.E[var(U¯|Ui)=1m∑mi=1ViViivar(E[U¯|Ui])=M+1M−1∑mi=1(Ui−U¯)2
De qualquer forma, como o número recomendado de imputações é pequeno (Rubin sugere apenas 5), normalmente é possível calcular esse número manualmente, ajustando cada análise. Um exemplo manual está listado abaixo:
require(mice)
set.seed(123)
nhimp <- mice(nhanes)
sapply(1:5, function(i) {
fit <- lm(chl ~ bmi, data=complete(nhimp, i))
print(c('coef'=coef(fit)[2], 'var'=vcov(fit)[2, 2]))
})
Fornece a seguinte saída:
coef.bmi var
2.123417 4.542842
3.295818 3.801829
2.866338 3.034773
1.994418 4.124130
3.153911 3.531536
Portanto, a variação interna é a média das variações da estimativa pontual específica da imputação: 3,8 (média da segunda coluna). A variação entre é a variação de 0,35 da primeira coluna). Usando a correção DF obtemos a variação 4.23. Isso concorda com o pool
comando dado no mice
pacote.
> fit <- with(data=nhimp,exp=lm(chl~bmi))
> summary(pool(fit))
est se t df Pr(>|t|) lo 95 hi 95 nmis fmi lambda
(Intercept) 119.03466 54.716451 2.175482 19.12944 0.04233303 4.564233 233.505080 NA 0.1580941 0.07444487
bmi 2.68678 2.057294 1.305978 18.21792 0.20781073 -1.631731 7.005291 9 0.1853028 0.10051760
que mostra o SE = 2,057 para o coeficiente do modelo (Variância = SE ** 2 = 4,23).
Não vejo como o aumento do número de conjuntos de dados imputados cria um problema específico. Se você não pode fornecer um exemplo do erro, não sei como ser mais útil. Mas a combinação manual certamente acomodará uma variedade de estratégias de modelagem.
Este artigo discute outras maneiras pelas quais a lei da variação total pode derivar outras estimativas da variação da estimativa combinada. Em particular, os autores apontam (corretamente) que a suposição necessária para as Regras de Rubin não é a normalidade das estimativas pontuais, mas algo chamado de simpatia. Na normalidade do WRT, a maioria das estimativas pontuais provenientes de modelos de regressão tem convergência rápida sob o teorema do limite central, e o bootstrap pode mostrar isso.