O método de substituição média da substituição de dados ausentes está desatualizado? Existem modelos mais sofisticados que devem ser usados? Se sim, o que são?
O método de substituição média da substituição de dados ausentes está desatualizado? Existem modelos mais sofisticados que devem ser usados? Se sim, o que são?
Respostas:
Exceto pelo fato de que não é necessário atirar em mosquitos com um canhão (ou seja, se você tiver um valor ausente em um milhão de pontos de dados, basta soltá-lo), usar a média pode ser abaixo do ideal para dizer o mínimo: o resultado pode ser tendencioso e você deve pelo menos corrigir o resultado para a incerteza.
Existem outras opções, mas a mais fácil de explicar é a imputação múltipla. O conceito é simples: com base em um modelo para seus próprios dados (por exemplo, obtido dos casos completos, embora outras opções estejam disponíveis, como o MICE), desenhe valores da distribuição associada para 'completar' o seu conjunto de dados. Nesse conjunto de dados completo, você não terá mais dados ausentes e poderá executar sua análise de interesse.
Se você fizesse isso apenas uma vez (na verdade, substituir os valores ausentes pela média é uma forma muito distorcida disso), isso seria chamado de imputação única e não há razão para que ele tenha um desempenho melhor do que a substituição média.
No entanto: o truque é fazer isso repetidamente (por isso, Imputação múltipla) e sempre que você fizer sua análise em cada conjunto de dados completo (= imputado). O resultado geralmente é um conjunto de estimativas de parâmetros ou semelhante para cada conjunto de dados concluído. Sob condições relativamente frouxas, não há problema em calcular a média de suas estimativas de parâmetros em todos esses conjuntos de dados imputados.
A vantagem é que também existe uma fórmula simples para ajustar o erro padrão para a incerteza causada pela falta de dados.
Se você quiser saber mais, provavelmente deve ler a 'Análise estatística com dados ausentes' de Little e Rubin. Isso também contém outros métodos (EM, ...) e mais explicações sobre como / por que / quando eles funcionam.
Você não nos falou muito sobre a natureza dos seus dados ausentes. Você verificou o MCAR ( desaparecendo completamente ao acaso )? Dado que você não pode assumir o MCAR, a substituição média pode levar a estimadores tendenciosos.
Como ponto de partida não matemático, posso recomendar as duas referências a seguir:
Se seus valores ausentes forem distribuídos aleatoriamente ou o tamanho da amostra for pequeno, é melhor usar apenas a média. Primeiro, dividiria os dados em duas partes: 1 com os valores ausentes e a outra sem e, em seguida, testaria a diferença na média de algumas variáveis-chave entre as duas amostras. Se não houver diferença, você tem algum suporte para substituir a média ou apenas excluir as observações inteiramente.
-Ralph Winters
A falta de dados é um grande problema em todos os lugares. Desejo que você responda primeiro à pergunta a seguir. 1) que% de idade dos dados está faltando? - se forem mais de 10% dos dados, você não correrá o risco de imputá-los com média. Como imputar essa falta com média é equivalente a dizer à caixa LR que parece .. essa variável tem a maioria dos lugares (então tire algumas conclusões) e você não quer que a caixa LR tire conclusões sobre suas sugestões. Agora, o mínimo que você pode fazer se não quiser muito é tentar relacionar os valores disponíveis dessas variáveis com diferentes preditores ou usar um senso de negócios sempre que possível ... exemplo ... se houver uma falta para casamento_ind, um dos maneiras podem ser ver a idade média das pessoas casadas (digamos que ela tenha 29 anos), Eu posso assumir que geralmente as pessoas (na Índia) se casam aos 30 e 29 anos. O PROC MI também faz coisas internamente para você, mas de uma maneira muito mais sofisticada .. então, meus 2 centavos .. veja pelo menos 4-5 variáveis que estão ligadas às suas faltas e tente formar uma correlação .. Isso pode ser melhor que a média.
What is MI
fornece uma lista de vários recursos.