Estimando parâmetros de uma distribuição normal: mediana em vez de média?

A abordagem comum para estimar os parâmetros de uma distribuição normal é usar a média e o desvio / variância padrão da amostra.

No entanto, se houver alguns discrepantes, a mediana e o desvio médio da mediana devem ser muito mais robustos, certo?

Em alguns conjuntos de dados que eu tentei, a distribuição normal estimado por $\mathcal{N}(\text{median}(x), \text{median}|x - \text{median}(x)|)$ parece produzir um ajuste muito melhor do que o clássico $\mathcal{N}(\hat\mu, \hat\sigma)$ usando média e Desvio de RMS.

Existe alguma razão para não usar a mediana se você presumir que existem alguns valores discrepantes no conjunto de dados? Você conhece alguma referência para essa abordagem? Uma pesquisa rápida no Google não me encontrou resultados úteis que discutem os benefícios do uso de medianas aqui (mas, obviamente, "mediana de estimativa de parâmetros de distribuição normal" não é um conjunto muito específico de termos de pesquisa).

O desvio mediano, é tendencioso? Devo multiplicá-lo por $\frac{n-1}{n}$ para reduzir o viés?

Você conhece abordagens robustas similares de estimativa de parâmetros para outras distribuições, como a distribuição Gamma ou a distribuição Gaussiana modificada exponencialmente (que precisa de Skewness na estimativa de parâmetros, e os valores extremos realmente atrapalham esse valor)?

— Erich Schubert
fonte

Se você tiver discrepâncias, pode ser que sua distribuição não seja realmente gaussiana normal. Isso não responde à sua pergunta, é claro, mas, na IMO, essa é uma possibilidade que sempre deve ser considerada.

— Sds 30/01

Não tenho uma distribuição matemática simples, limpa e matemática. Eu tenho dados reais, que são confusos por natureza. Nenhuma distribuição será perfeita, porque você não pode mais lidar com a situação analiticamente. E os outliers são realmente o meu interesse. :-)

— Erich Schubert

Respostas:

A observação de que, em um exemplo envolvendo dados extraídos de uma distribuição Gaussiana contaminada, você obteria melhores estimativas dos parâmetros que descrevem a maior parte dos dados usando os dados vez de onde é: $\text{mad}$ $\text{med}|x-\text{med}(x)|$ $\text{mad}(x)$

mad = 1.4826 \times med | x - med (x) |

$\text{mad}=1.4826\times\text{med}|x-\text{med}(x)|$

--where, é um fator de consistência projetado para garantir que quando não é contaminado-- foi originalmente produzido por Gauss (Walker H. (1931)). $(\Phi^{-1}(0.75))^{-1}=1.4826$

E (mad (x)^{2}) = Var (x)

$\text{E}(\text{mad}(x)^2)=\text{Var}(x)$

x

$x$

Não consigo pensar em nenhum motivo para não usar o vez da média da amostra nesse caso. A menor eficiência (no gaussiano!) Dos pode ser uma razão para não usar os no seu exemplo. No entanto, existem alternativas igualmente robustas e altamente eficientes para os . Um deles é o $\text{med}$ $\text{mad}$ $\text{mad}$ $\text{mad}$ $Q_n$ . Este estimador tem muitas outras vantagens ao lado. Também é muito insensível aos discrepantes (na verdade quase tão insensíveis quanto os loucos). Ao contrário do louco, ele não é construído em torno de uma estimativa de localização e não assume que a distribuição da parte não contaminada dos dados seja simétrica. Como o louco, é baseado em estatísticas de pedidos, para que seja sempre bem definido, mesmo quando a distribuição subjacente da sua amostra não tiver momentos. Como os loucos, tem uma forma explícita simples. Ainda mais do que para os loucos, não vejo motivos para usar o desvio padrão da amostra em vez do no exemplo que você descreve (consulte Rousseeuw e Croux 1993 para obter mais informações sobre o ). $Q_n$ $Q_n$

Quanto à sua última pergunta, sobre o caso específico em que , então $x\sim\Gamma(\nu,\lambda)$

med (x) \approx λ (ν - 1 / 3)

$\text{med}(x)\approx\lambda(\nu-1/3)$

mad (x) \approx λ \sqrt{ν}

$\text{mad}(x)\approx\lambda\sqrt{\nu}$

(em ambos os casos, as aproximações se tornam boas quando ) para que $\nu>1.5$

\hat{ν} = {(\frac{med (x)}{mad (x)})}^{2}

$\hat{\nu}=\left(\frac{\text{med}(x)}{\text{mad}(x)}\right)^2$

\hat{λ} = \frac{mad (x)^{2}}{med (x)}

$\hat{\lambda}=\frac{\text{mad}(x)^2}{\text{med}(x)}$

Veja Chen e Rubin (1986) para uma derivação completa.

J. Chen e H. Rubin, 1986. Limites para a diferença entre mediana e média das distribuições Gamma e Poisson, Statist. Probab. Lett., 4, 281-283.
PJ Rousseeuw e C. Croux, 1993. Alternativas ao Median Absolute Deviation Journal da American Statistical Association, vol. 88, n. 424, pp. 1273-1283
Walker, H. (1931). Estudos de História do Método Estatístico. Baltimore, MD: Williams & Wilkins Co., pp. 24–25.

— user603
fonte

Φ^{- 1} (0.75)^{- 1} \approx 1.4826

$\Phi^{-1}(0.75)^{-1} \approx 1.4826$ - esse é o valor a ser usado ou uma das duas inversões é extra?

— Erich Schubert

@ErichSchubert: você está certo: eu esqueci o segundo inverso .. corrigido.

— usar o seguinte comando

+1. Mas acho que você caracterizou erroneamente o "fator de eficiência": não é análogo ao

n / (n - 1)

$n/(n-1)$ fator para a variação, porque o último é universal, enquanto seu fator é específico apenas para distribuições normais: com uma distribuição diferente em mente, você teria que mudar seu fator. Essa diferença é uma das razões cruciais pelas quais variações e SDs têm visto muito mais aplicativos que o MAD.

— whuber

@ whuber: obrigado por isso, agora percebo que minha frase 'isso é semelhante em espírito ' pode ser facilmente mal interpretada. Eu removi isso.

— usar o seguinte comando

Fiz da parte do ExNormal uma pergunta separada: stats.stackexchange.com/questions/48907/… Mas tenho mais uma para você: Distribuição LogNormal - manipule aplicando o log e prossiga como na distribuição normal?

— Erich Schubert

Se, como você afirma, os dados são normais, com exceção de uma pequena proporção de discrepantes, o desvio médio e mediano absoluto será robusto a erros grosseiros, mas não fará um uso muito eficiente das informações nos dados não-periféricos.

Se você conhecesse a priori um limite da proporção de outliers, poderia cortar essa proporção pela média e Winsorize o desvio padrão. Uma alternativa que não requer esse conhecimento seria usar estimadores M para a localização e quantidades relacionadas para a variação. O ganho de eficiência se suas suposições estiverem corretas (como os dados realmente estão normais, exceto por uma pequena porcentagem de discrepantes) pode, em algumas circunstâncias, ser substancial.

The median deviation is biased as an estimate of the standard deviation - but not like the $\frac{n}{n-1}$ adjustment; the unadjusted sample mean square is asymptotically going to the variance, but the sample median absolute deviation is not asymptotically going to the population standard deviation; you need to multiply it by a constant simply to get consistency. After you have done that it's still small-sample biased in the same sense as the unadjusted mean square.

— Glen_b -Reinstate Monica
fonte