Média aparada vs mediana

Eu tenho um conjunto de dados com todas as chamadas feitas para um serviço de emergência e os tempos de resposta do departamento de ambulância. Eles admitiram que existem alguns erros nos tempos de resposta, pois há casos em que eles não começaram a gravar (portanto, o valor é 0) ou em que não pararam o relógio (portanto, o valor pode ser extremamente alto).

Eu quero descobrir a tendência central e fiquei pensando se é melhor usar a mediana ou a média aparada para se livrar dos valores extremos?

— Duarte_RV
fonte

Em primeiro lugar, eu excluiria todos os dados inválidos (valor = 0). Depois, visualizava os dados com um histograma ou gráfico de caixa para ver onde estou. Porque você não pode apenas cega cortar os dados em 5% se você tem 10% de maus dados ...

— alesc

Sim, ou traçar o CDF. Em R, faça o seguinte: times = times [times> 0]; plot (ecdf (times))

— Paul

Respostas:

Considere o que significa uma média aparada: No caso prototípico, você primeiro classifica seus dados em ordem crescente. Então você conta até a porcentagem de corte da parte inferior e descarta esses valores. Por exemplo, uma média aparada de 10% é comum; nesse caso, você conta com o valor mais baixo até passar 10% de todos os dados em seu conjunto. Os valores abaixo dessa marca são anulados. Da mesma forma, você faz a contagem regressiva do valor mais alto até ultrapassar sua porcentagem de corte e define todos os valores maiores que isso. Agora você fica com os 80% do meio. Você calcula a média disso, e essa é a sua média aparada em 10%. (Observe que você pode cortar proporções desiguais das duas caudas, ou apenas cortar uma cauda, mas essas abordagens são menos comuns e não parecem aplicáveis à sua situação.)

Agora pense no que aconteceria se você calculasse uma média aparada de 50%. A metade inferior seria reservada, assim como a metade superior. Você ficaria com apenas o valor único no meio (normalmente). Você usaria a média disso (ou seja, você usaria esse valor) como sua média aparada. Observe, no entanto, que esse valor é a mediana. Em outras palavras, a mediana é uma média aparada (é uma média aparada de 50%). É apenas um muito agressivo. Parte-se do princípio de que 99% dos seus dados estão contaminados. Isso oferece a melhor proteção contra discrepantes à custa da perda máxima de potência / eficiência .

Meu palpite é que uma média mediana / 50% aparada é muito mais agressiva do que o necessário para seus dados e desperdiça muito as informações disponíveis. Se você tiver alguma noção da proporção de discrepantes existentes, eu usaria essas informações para definir a porcentagem de corte e usar a média aparada apropriada. Se você não tiver base para escolher a porcentagem de corte, poderá selecionar uma por validação cruzada ou usar uma análise de regressão robusta com apenas uma interceptação.

— - Reinstate Monica
fonte

Eu concordo com o espírito disso, mas pode ser interpretado erroneamente como implicando que os meios aparados necessariamente são baseados em aparar frações iguais em cada cauda. Esse é apenas um procedimento comum, e o procedimento discutido com mais frequência para um caso de referência de distribuições aproximadamente simétricas, mas possivelmente de cauda gorda, mas não é de modo algum obrigatório. Existe uma literatura sobre aparar apenas em uma cauda, o que faz sentido quando todos os valores duvidosos podem estar na cauda.

— 27615 Nick Cox

@NickCox, bom ponto. Eu adicionei um pequeno texto para esclarecer isso. Deixe-me saber se você acha que precisa de mais.

— gung - Restabelece Monica

Parece bom. Aparar naturalmente em uma cauda é exatamente aquele caso especial de proporções desiguais em que uma proporção é zero.

— Nick Cox

@ NickCox, claro, mas achei melhor ser explícito.

— gung - Restabelece Monica

-1

Antes de tudo, remova os dados inválidos.

Em segundo lugar, você não precisa remover os valores discrepantes, pois são valores observados. Em alguns casos, é útil (como na regressão linear), mas no seu caso eu não entendo o ponto.

Por fim, prefira usar a mediana, pois é mais preciso encontrar o centro dos seus dados. Como você disse, a média pode ser sensível a valores discrepantes (o uso da média aparada pode ser tendenciosa).

— Philippe Remy
fonte

Como a estimativa da localização é um caso particular de regressão, eu ficaria curioso para saber como pode ser útil remover discrepâncias no último, mas não no primeiro.

— user603