O método de substituição média da substituição de dados ausentes está desatualizado?


8

O método de substituição média da substituição de dados ausentes está desatualizado? Existem modelos mais sofisticados que devem ser usados? Se sim, o que são?


este site pode dar resposta à sua pergunta. O link What is MIfornece uma lista de vários recursos.
mpiktas 23/05

Respostas:


14

Exceto pelo fato de que não é necessário atirar em mosquitos com um canhão (ou seja, se você tiver um valor ausente em um milhão de pontos de dados, basta soltá-lo), usar a média pode ser abaixo do ideal para dizer o mínimo: o resultado pode ser tendencioso e você deve pelo menos corrigir o resultado para a incerteza.

Existem outras opções, mas a mais fácil de explicar é a imputação múltipla. O conceito é simples: com base em um modelo para seus próprios dados (por exemplo, obtido dos casos completos, embora outras opções estejam disponíveis, como o MICE), desenhe valores da distribuição associada para 'completar' o seu conjunto de dados. Nesse conjunto de dados completo, você não terá mais dados ausentes e poderá executar sua análise de interesse.

Se você fizesse isso apenas uma vez (na verdade, substituir os valores ausentes pela média é uma forma muito distorcida disso), isso seria chamado de imputação única e não há razão para que ele tenha um desempenho melhor do que a substituição média.

No entanto: o truque é fazer isso repetidamente (por isso, Imputação múltipla) e sempre que você fizer sua análise em cada conjunto de dados completo (= imputado). O resultado geralmente é um conjunto de estimativas de parâmetros ou semelhante para cada conjunto de dados concluído. Sob condições relativamente frouxas, não há problema em calcular a média de suas estimativas de parâmetros em todos esses conjuntos de dados imputados.

A vantagem é que também existe uma fórmula simples para ajustar o erro padrão para a incerteza causada pela falta de dados.

Se você quiser saber mais, provavelmente deve ler a 'Análise estatística com dados ausentes' de Little e Rubin. Isso também contém outros métodos (EM, ...) e mais explicações sobre como / por que / quando eles funcionam.


1
+1 Suponho que a imputação única tenha um desempenho ligeiramente melhor que a substituição média porque você incorpora informações adicionais ( preditores vs preditores). No entanto, concordo plenamente que o MI é o caminho a percorrer. 0p
Bernd Weiss

11

Você não nos falou muito sobre a natureza dos seus dados ausentes. Você verificou o MCAR ( desaparecendo completamente ao acaso )? Dado que você não pode assumir o MCAR, a substituição média pode levar a estimadores tendenciosos.

Como ponto de partida não matemático, posso recomendar as duas referências a seguir:

  1. Graham, Hohn W. (2009): Análise de Dados Perdidos: Fazendo Funcionar no Mundo Real.
  2. Allison, Paul (2002): Dados ausentes. (consulte a seção "Imputação", p. 11)

@ A referência Bernd the Graham é extremamente boa, me ajudou muito em entender o que é imputação múltipla.
Richiemorrisroe # 23/11

2

Se seus valores ausentes forem distribuídos aleatoriamente ou o tamanho da amostra for pequeno, é melhor usar apenas a média. Primeiro, dividiria os dados em duas partes: 1 com os valores ausentes e a outra sem e, em seguida, testaria a diferença na média de algumas variáveis-chave entre as duas amostras. Se não houver diferença, você tem algum suporte para substituir a média ou apenas excluir as observações inteiramente.

-Ralph Winters


1
Mas usar a média implica que você está prevendo o valor nesse momento. Não é isso que está acontecendo, o que está acontecendo é uma tentativa de recuperar um valor aleatório. Parece que, como você também tem uma estimativa da variação, deve usar os dois (ou seja, um sorteio aleatório da distribuição).
John

Além disso, a substituição média reduzirá a variação de suas estimativas, o que gerará todos os seus erros padrão e intervalos de confiança para o restante de suas análises.
Richiemorrisroe # 23/11

Sim. Eu estava apenas sugerindo que as populações dos dados ausentes versus não ausentes fossem examinadas antes de mergulhar cegamente no IM, o que pode ocupar muito poder computacional às custas de ganhos mínimos.
Ralph Winters

0

A falta de dados é um grande problema em todos os lugares. Desejo que você responda primeiro à pergunta a seguir. 1) que% de idade dos dados está faltando? - se forem mais de 10% dos dados, você não correrá o risco de imputá-los com média. Como imputar essa falta com média é equivalente a dizer à caixa LR que parece .. essa variável tem a maioria dos lugares (então tire algumas conclusões) e você não quer que a caixa LR tire conclusões sobre suas sugestões. Agora, o mínimo que você pode fazer se não quiser muito é tentar relacionar os valores disponíveis dessas variáveis ​​com diferentes preditores ou usar um senso de negócios sempre que possível ... exemplo ... se houver uma falta para casamento_ind, um dos maneiras podem ser ver a idade média das pessoas casadas (digamos que ela tenha 29 anos), Eu posso assumir que geralmente as pessoas (na Índia) se casam aos 30 e 29 anos. O PROC MI também faz coisas internamente para você, mas de uma maneira muito mais sofisticada .. então, meus 2 centavos .. veja pelo menos 4-5 variáveis ​​que estão ligadas às suas faltas e tente formar uma correlação .. Isso pode ser melhor que a média.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.