Qual é melhor, substituição por média e substituição por mediana?

Estou fazendo um projeto que envolve a substituição de valores ausentes em um conjunto de dados (pela primeira vez). Isso envolve o uso de dois métodos replacement by meane replacement by medianpara preencher os valores ausentes. Não há muita diferença entre os resultados dos desvios mínimo, mediano, máximo, médio e padrão dos dados usando os dois métodos. Fiquei imaginando qual método é melhor e como posso decidir qual deles é melhor usando o método resultados produzidos?

mean median data-imputation

— Jake MB
fonte

Se você substituir as missas por médias, naturalmente a média será preservada. Idem medianas. Os extremos também não mudarão. Os SDs normalmente serão reduzidos um pouco, mas seriam bastante reduzidos se você fizer muito isso. Essas são consequências previsíveis do que você faz e não são indicações ipso facto de que o método é bom.

— Nick Cox

Analistas que conectam valores ausentes (MVs) com "soluções" automáticas como essa não estão pensando nas consequências. É apenas uma abordagem de fácil implementação. Essa "solução" apresenta tantos problemas quanto resolve, uma vez que um pdf normalmente normal acaba com um grande aumento no valor conectado, como uma função do número de MVs, é claro. Imputações baseadas em modelo são comprovadamente superiores e menos tendenciosas do que qualquer abordagem automatizada. @NickCox não pode ignorar isso, apesar do que sua sugestão implica.

— Mike Hunter

: @Johnson ... não ipso facto indica que o método é bom. Não está claro o suficiente?

— Nick Cox

Os valores categóricos geralmente são imputados ao modo, pois representam o valor mais comum para a coluna especificada.

— Sandeep Kar

Respostas:

Depende sempre dos seus dados e da sua tarefa.

Se houver um conjunto de dados com ótimos valores discrepantes, prefiro mediana. Ex: 99% da renda familiar está abaixo de 100 e 1% está acima de 500.

Por outro lado, se trabalharmos com o desgaste de roupas que os clientes dão à lavadora a seco (assumindo que os operadores das lavanderias preencham esse campo intuitivamente), preencherei as perdas com o valor médio do desgaste.

É melhor começar com o entendimento dos dados e, em seguida, este artigo será um ponto de partida útil.

— Aleksandro M Granda
fonte

Os dados que estou usando podem variar de 0 a 1 e criei histogramas com limites de 0,1,0.2,0.3 ... a 1. Como tenho muitos limites e contornos diferentes, você diria que a média é a melhor?

— Jake MB

@ JakeM-B, é difícil dar bons conselhos, quando não tenho acesso direto e histórico dos dados. Freqüentemente, o valor ausente nos dados significa que o valor deve ser zero (ou qualquer outra coisa como padrão). Em seu lugar (se não houver grande diferença entre média e mediana), eu tentaria os dois e verificaria como isso influencia o resultado final.

— Aleksandro M Granda 27/03

A imputação é um meio para um objetivo, não o objetivo em si. Em algumas circunstâncias, substituir os dados ausentes pode ser a coisa errada a fazer. Certifique-se de prestar atenção primeiro ao motivo pelo qual seus dados estão ausentes, conforme explicado na página Wikipedia de Dados ausentes , e se a imputação é realmente apropriada para responder à pergunta que seu projeto procura responder.

Se algumas suposições forem atendidas (por exemplo, se a probabilidade de uma variável ter um valor ausente não depender do valor em si, tecnicamente chamado de "ausente aleatoriamente") e seu estudo envolver várias variáveis, é melhor usar várias imputações em vez de substituições por meios ou medianas. Na imputação múltipla, os valores conhecidos de todas as variáveis são usados para fornecer vários conjuntos de estimativas dos dados ausentes. Essa abordagem pode fornecer melhores estimativas, tanto das relações subjacentes entre as variáveis quanto da confiabilidade de suas estimativas. Veja as perguntas neste site com a multiple-imputationetiqueta para obter mais informações.

— EdM
fonte