Esses dados têm uma cauda curta em comparação com uma distribuição lognormal, não muito diferente de uma distribuição gama:
set.seed(17)
par(mfcol=c(1,1))
x <- rgamma(500, 1.9)
qqnorm(log(x), pch=20, cex=.8, asp=1)
abline(mean(log(x)) + .1,1.2*sd(log(x)), col="Gray", lwd=2)
No entanto, como os dados são fortemente inclinados à direita, podemos esperar que os maiores valores desempenhem um papel importante na estimativa da média e seu intervalo de confiança. Portanto , devemos antecipar que um estimador lognormal (LN) tenderá a superestimar a média e os dois limites de confiança .
Vamos verificar e, para comparação, usar os estimadores usuais: ou seja, a média da amostra e seu intervalo de confiança da teoria normal. Observe que os estimadores usuais dependem apenas da normalidade aproximada da média da amostra , não dos dados, e - com um conjunto de dados tão grande - pode funcionar bem. Para fazer isso, precisamos de uma ligeira modificação da ci
função:
ci <- function (x, alpha=.05) {
z <- -qnorm(alpha / 2)
y <- log(x); n <- length(y); s2 <- var(y)
m <- mean(y) + s2 / 2
d <- z * sqrt(s2 / n + s2 * s2 / (2 * (n - 1)))
exp(c(mean=m, lcl=m-d, ucl=m+d))
}
Aqui está uma função paralela para as estimativas da teoria normal:
ci.u <- function(x, alpha=.05) {
mean(x) + sd(x) * c(mean=0, lcl=1, ucl=-1) / sqrt(length(x)) * qnorm(alpha/2)
}
Aplicado a esse conjunto de dados simulado, as saídas são
> ci(x)
mean lcl ucl
2.03965 1.87712 2.21626
> ci.u(x)
mean lcl ucl
1.94301 1.81382 2.07219
As estimativas da teoria normal produzidas ci.u
parecem um pouco mais próximas da média real de , mas é difícil distinguir de um conjunto de dados qual procedimento tende a funcionar melhor. Para descobrir, vamos simular muitos conjuntos de dados:1.9
trial <- function(n=500, k=1.9) {
x <- rgamma(n, k)
cbind(ci(x), ci.u(x))
}
set.seed(17)
sim <- replicate(5000, trial())
Estamos interessados em comparar os resultados com a média real de . Um painel de histogramas é revelador a esse respeito:1.9
xmin <- min(sim)
xmax <- max(sim)
h <- function(i, ...) {
b <- seq(from=floor(xmin*10)/10, to=ceiling(xmax*10)/10, by=0.1)
hist(sim[i,], freq=TRUE, breaks=b, col="#a0a0FF", xlab="x", xlim=c(xmin, xmax), ...)
hist(sim[i,sim[i,] >= 1.9], add=TRUE,freq=TRUE, breaks=b, col="#FFa0a0",
xlab="x", xlim=c(xmin, xmax), ...)
}
par(mfcol=c(2,3))
h(1, main="LN Estimate of Mean")
h(4, main="Sample Mean")
h(2, main="LN LCL")
h(5, main="LCL")
h(3, main="LN UCL")
h(6, main="UCL")
Agora está claro que os procedimentos lognormal tendem a superestimar a média e os limites de confiança, enquanto os procedimentos usuais fazem um bom trabalho. Podemos estimar as coberturas dos procedimentos de intervalo de confiança:
> sapply(c(LNLCL=2, LCL=5, LNUCL=3, UCL=6), function(i) sum(sim[i,] > 1.9)/dim(sim)[2])
LNLCL LCL LNUCL UCL
0.2230 0.0234 1.0000 0.9648
Este cálculo diz:
O limite inferior do LN não cobrirá a média verdadeira em cerca de 22,3% do tempo (em vez dos 2,5% pretendidos).
O limite inferior usual falhará em cobrir a média real cerca de 2,3% das vezes, próximo aos 2,5% pretendidos.
O limite superior do LN sempre excederá a média verdadeira (em vez de ficar abaixo dele 2,5% do tempo, conforme o planejado). Isso o torna um intervalo de confiança de 100% - (22,3% + 0%) = 77,7% em vez de um intervalo de confiança de 95%.
O limite superior usual falhará em cobrir a média verdadeira cerca de 100 - 96,5 = 3,5% do tempo. Isso é um pouco maior que o valor pretendido de 2,5%. Os limites usuais, portanto, compreendem um intervalo de confiança de 100% - (2,3% + 3,5%) = 94,2% nos dois lados, em vez de um intervalo de confiança de 95%.
A redução da cobertura nominal de 95% para 77,7% para o intervalo lognormal é terrível. A redução para 94,2% para o intervalo usual não é ruim e pode ser atribuída ao efeito da assimetria (dos dados brutos, não de seus logaritmos).
Temos que concluir que análises adicionais da média não devem assumir normalidade do logaritmo.
Seja cuidadoso! Alguns procedimentos (como limites de previsão) serão mais sensíveis à assimetria do que esses limites de confiança para a média, portanto, sua distribuição distorcida pode precisar ser considerada. No entanto, parece improvável que os procedimentos lognormal tenham um bom desempenho com esses dados para praticamente qualquer análise pretendida.