Respostas:
Don Rubin escreveu um artigo influente que prova que não existe um método único de imputação que produza inferências imparciais (onde "imputação única" significa a imputação de apenas um valor para uma observação ausente). No entanto, no mesmo artigo, ele apontou que pode ser possível criar várias imputações cuja média é uma estimativa imparcial do valor ausente e cujas contribuições para o aumento da variância nas análises subsequentes são uma estimativa razoável da incerteza adicionada devido aos dados. falta.
Este é o artigo dele:
Rubin, DB (1976). Inferência e dados ausentes. Biometrika , 63 (3): 581–592.
E isso é uma atualização: Rubin, DB (1996). Imputação múltipla após 18 anos ou mais. Jornal da Associação Estatística Americana , 91 (434): 473-489.
E esta é uma introdução suave ao tópico da imputação múltipla:
Schafer, JL (1999). Imputação múltipla: uma cartilha. Métodos Estatísticos em Pesquisa Médica , 8: 3–15.
Há uma variedade de pacotes de software estatístico que suportam múltiplas imputações (por exemplo, mouses em R ou gelo em Stata, ou mesmo os recursos de múltiplas imputações integrados da Stata nas versões recentes).
Nunca é uma boa idéia fazer isso, mas, se houver muito poucos dados ausentes, eles causarão relativamente pouco dano, serão muito mais fáceis de implementar e, dependendo do seu público final, poderão ser muito mais fáceis de explicar. No entanto, uma audiência relativamente sofisticada pode se opor à imputação média única.
A pergunta: "Qual método de imputação é a melhor escolha" depende sempre do conjunto de dados que você analisa
Tomando a média, em geral é um método de imputação válido. Como alguém já mencionado, é fácil de explicar para publicações e tem suas vantagens em velocidade de computação.
A média como método de imputação é uma boa escolha para séries que flutuam aleatoriamente em torno de um determinado valor / nível.
Para as séries mostradas, a média não parece apropriada. Como também é apenas uma variável, você não pode usar algoritmos multivariados clássicos, conforme fornecido por ratos, Amelia, VIM.
Você precisaria procurar especialmente algoritmos de séries temporais. Uma abordagem simples, porém, para o seu exemplo, seria uma interpolação linear.
library(imputeTS)
x <- c(1,8,12,14,NA,NA,19)
na.interpolation(x)
Aqui está a saída para uma interpolação linear:
[1] 1.00000 8.00000 12.00000 14.00000 15.66667 17.33333 19.00000
Provavelmente, este é um resultado melhor do que a média.
Também existem métodos mais avançados de séries temporais no pacote imputeTS (por mim) ou um no pacote de previsão (por Rob Hyndman)