Por que a média aritmética é menor que a média da distribuição em uma distribuição log-normal?

Então, eu tenho um processo aleatório gerando variáveis aleatórias normalmente distribuídas em log $X$ . Aqui está a função de densidade de probabilidade correspondente:

Eu queria estimar a distribuição de alguns momentos dessa distribuição original, digamos o primeiro momento: a média aritmética. Para isso, desenhei 100 variáveis aleatórias 10.000 vezes, para poder calcular 10000 estimativas da média aritmética.

Existem duas maneiras diferentes de estimar essa média (pelo menos, foi o que eu entendi: eu posso estar errado):

calculando claramente a média aritmética da maneira usual: $\bar{X} = \sum_{i = 1}^{N} \frac{X_{i}}{N} .$ $\bar{X} = \sum_{i=1}^N \frac{X_i}{N}.$
ou primeiro estimando e partir da distribuição normal subjacente: $\sigma$ $\mu$ e, em seguida, a média como $μ = \sum_{i = 1}^{N} \frac{\log (X_{i})}{N} σ^{2} = \sum_{i = 1}^{N} \frac{{(\log (X_{i}) - μ)}^{2}}{N}$ $\mu = \sum_{i=1}^N \frac{\log (X_i)}{N} \quad \sigma^2 = \sum_{i=1}^N \frac{\left(\log (X_i) - \mu\right)^2}{N}$ $\bar{X} = \exp (μ + \frac{1}{2} σ^{2}) .$ $\bar{X} = \exp(\mu + \frac{1}{2}\sigma^2).$

O problema é que as distribuições correspondentes a cada uma dessas estimativas são sistematicamente diferentes:

A média "simples" (representada como a linha tracejada vermelha) geralmente fornece valores mais baixos que o derivado da forma exponencial (linha simples verde). Embora ambos os meios sejam calculados exatamente no mesmo conjunto de dados. Observe que essa diferença é sistemática.

Por que essas distribuições não são iguais?

— JohnW
fonte

Quais são seus verdadeiros parâmetros para

μ

$\mu$

σ

$\sigma$

— Christoph Hanck

μ = 3

$\mu = 3$

σ = 1.5

$\sigma = 1.5$ , mas observe que estou interessado em estimar esses parâmetros, portanto, a abordagem de Monte-Carlo em vez de calcular a coisa a partir desses números brutos.

— johnw

Claro, isso é para replicar seus resultados.

— Christoph Hanck

Curiosamente, esse fenômeno não tem nada a ver com lognormalidade. Dados números positivos

com logaritmos

, é sabido que a média aritmética (AM)

nunca é menor que a média geométrica (GM)

. Na outra direção, o AM nunca é maior que o GM multiplicado por

que

é a variação do

x_{i}

$x_i$

y_{i}

$y_i$

\sum x_{i} / n

$\sum x_i/n$

\exp (\sum y_{i} / n)

$\exp(\sum y_i/n)$

\exp (s_{y}^{2} / 2)

$\exp(s_y^2/2)$

s_{y}^{2}

$s_y^2$

y_{i}

$y_i$ . Portanto, a curva vermelha pontilhada deve ficar à esquerda da curva verde sólida para qualquer distribuição pai (descrevendo números aleatórios positivos).

— whuber

Se grande parte da média deriva de uma pequena probabilidade de grandes números, uma média aritmética de amostra finita pode subestimar a média da população com alta probabilidade. (Na expectativa, é imparcial, mas há uma grande probabilidade de uma pequena subestimação e uma pequena probabilidade de uma grande superestimação.) Esta questão também pode estar relacionada a esta: stats.stackexchange.com/questions/214733/…

— Matthew Gunn

Os dois estimadores que você está comparando são o método do estimador de momentos (1.) e o MLE (2.), veja aqui . Ambos são consistentes (portanto, para grande , eles são, em certo sentido, provavelmente próximos do valor verdadeiro $N$ $\exp[\mu+1/2\sigma^2]$

$\bar X\to_pE(X_i)$

\exp [\hat{μ} + 1 / 2 {\hat{σ}}^{2}] \to_{p} \exp [μ + 1 / 2 σ^{2}],

$\exp[\hat\mu+1/2\hat\sigma^2]\to_p\exp[\mu+1/2\sigma^2],$

\hat{μ} \to_{p} μ

$\hat\mu\to_p\mu$

{\hat{σ}}^{2} \to_{p} σ^{2}

$\hat\sigma^2\to_p\sigma^2$

O MLE não é, no entanto, imparcial.

$N$ $\hat\mu$ $\hat\sigma^2$ $N=100$ $N-1$ $\mu$ $\sigma^2$

$E(\hat\mu+1/2\hat\sigma^2)\approx\mu+1/2\sigma^2$

E [\exp (\hat{μ} + 1 / 2 {\hat{σ}}^{2})] > \exp [E (\hat{μ} + 1 / 2 {\hat{σ}}^{2})] \approx \exp [μ + 1 / 2 σ^{2}]

$E[\exp(\hat\mu+1/2\hat\sigma^2)]>\exp[E(\hat\mu+1/2\hat\sigma^2)]\approx \exp[\mu+1/2\sigma^2]$

Tente aumentar $N=100$

Veja esta ilustração de Monte Carlo para $N=1000$

Criado com:

N <- 1000
reps <- 10000

mu <- 3
sigma <- 1.5
mm <- mle <- rep(NA,reps)

for (i in 1:reps){
  X <- rlnorm(N, meanlog = mu, sdlog = sigma)
  mm[i] <- mean(X)

  normmean <- mean(log(X))
  normvar <- (N-1)/N*var(log(X))
  mle[i] <- exp(normmean+normvar/2)
}
plot(density(mm),col="green",lwd=2)
truemean <- exp(mu+1/2*sigma^2)
abline(v=truemean,lty=2)
lines(density(mle),col="red",lwd=2,lty=2)

> truemean
[1] 61.86781

> mean(mm)
[1] 61.97504

> mean(mle)
[1] 61.98256

$\exp(\mu+\sigma^2/2)$

V_{t} = (σ^{2} + σ^{4} / 2) \cdot \exp {2 (μ + \frac{1}{2} σ^{2})},

$V_t = (\sigma^2 + \sigma^4/2)\cdot \exp\left\{2(\mu + \frac 12\sigma^2)\right\},$

\exp {2 (μ + \frac{1}{2} σ^{2})} (\exp {σ^{2}} - 1)

$\exp\left\{2(\mu + \frac 12\sigma^2)\right\}(\exp\{\sigma^2\}-1)$

\exp {σ^{2}} > 1 + σ^{2} + σ^{4} / 2,

$\exp\{\sigma^2\}>1+\sigma^2 + \sigma^4/2,$

\exp (x) = \sum_{i = 0}^{\infty} x^{i} / i!

$\exp(x)=\sum_{i=0}^\infty x^i/i!$

σ^{2} > 0

$\sigma^2>0$

$N$ N <- c(50,100,200,500,1000,2000,3000,5000)

$N$ $N$ $N=50$

> tail(sort(mm))
[1] 336.7619 356.6176 369.3869 385.8879 413.1249 784.6867
> tail(sort(mle))
[1] 187.7215 205.1379 216.0167 222.8078 229.6142 259.8727

— Christoph Hanck
fonte

N

$N$

N = 100

$N=100$ o viés é de fato negativo para o estimador MM, mas isso não parece um resultado geral, veja o gráfico do viés como uma função de

N

$N$ .

— Christoph Hanck

Bem, também estou surpreso que exista uma diferença tão grande entre os dois métodos, mas este exemplo é absolutamente perfeito para demonstrar por que "apenas calcular a média das coisas" pode ser horrível!

— johnw

@ JohnW, adicionei uma pequena explicação analítica do porquê o MLE tem uma variação menor.

— Christoph Hanck 01/07/19

A discrepância decorre do fato de que o viés é um problema de amostra finita, ou seja, desaparece quando

N

$N$ vai para o infinito. A comparação da variação assintótica (como o nome diz) mostra apenas o que acontece no limite, como

N \to \infty

$N\to\infty$ .

— Christoph Hanck 01/07/19