Como é apenas um fator de escala, sem perda de generalidade, escolha unidades de medida que , tornando a função de distribuição subjacente com densidade .λ = 1 F (λλ=1f ( x ) = exp ( - x )F(x)=1−exp(−x)f(x)=exp(−x)
A partir de considerações paralelas às do teorema do limite central para medianas da amostra , é assintoticamente normal com média e variância F - 1 ( p ) = - log ( 1 - p )X(m)F−1(p)=−log(1−p)
Var(X(m))=p(1−p)nf(−log(1−p))2=pn(1−p).
Devido à propriedade sem memória da distribuição exponencial , as variáveis agem como as estatísticas de ordem de uma amostra aleatória de extraída de , para a qual foi adicionado. Escrita(X(m+1),…,X(n))n−mFX(m)
Y=1n−m∑i=m+1nX(i)
para sua média, é imediato que a média de seja a média de (igual a ) e a variação de seja vezes a variação de (também igual a ). O Teorema do Limite Central implica que o padronizado é assintoticamente padrão normal. Além disso, porque é condicionalmente independente de , que ao mesmo tempo tem a versão padronizada de tornar-se assintoticamente padrão normal e não correlacionada com . Isso é,F 1 Y 1 / ( n - m ) F 1 YYF1Y1/(n−m)F1YYX(m)X(m)Y
(X(m)+log(1−p)p/(n(1−p))−−−−−−−−−−√,Y−X(m)−1n−m−−−−−√)(1)
tem assintoticamente uma distribuição normal padrão bivariada.
Os gráficos relatam dados simulados para amostras de ( iterações) . Um traço de assimetria positiva permanece, mas a abordagem da normalidade bivariada é evidente na falta de relação entre e e a proximidade dos histogramas à densidade normal padrão (mostrada em pontos vermelhos).
500 p = 0,95 Y - X ( m ) X ( m )n=1000500p=0.95Y−X(m)X(m)
A matriz de covariância dos valores padronizados (como na fórmula ) para esta simulação foi confortavelmente perto da matriz de unidades que ela se aproxima.( 0,967 - 0,021 - 0,021 1,010 ) ,(1)
(0.967−0.021−0.0211.010),
O R
código que produziu esses gráficos é prontamente modificado para estudar outros valores de , tamanho da simulação.pnp
n <- 1e3
p <- 0.95
n.sim <- 5e3
#
# Perform the simulation.
# X_m will be in the first column and Y in the second.
#
set.seed(17)
m <- floor(p * n)
X <- apply(matrix(rexp(n.sim * n), nrow = n), 2, sort)
X <- cbind(X[m, ], colMeans(X[(m+1):n, , drop=FALSE]))
#
# Display the results.
#
par(mfrow=c(2,2))
plot(X[,1], X[,2], pch=16, col="#00000020",
xlab=expression(X[(m)]), ylab="Y",
main="Y vs X", sub=paste("n =", n, "and p =", signif(p, 2)))
plot(X[,1], X[,2]-X[,1], pch=16, col="#00000020",
xlab=expression(X[(m)]), ylab=expression(Y - X[(m)]),
main="Y-X vs X", sub="Loess smooth shown")
lines(lowess(X[,2]-X[,1] ~ X[,1]), col="Red", lwd=3, lty=1)
x <- (X[,1] + log(1-p)) / sqrt(p/(n*(1-p)))
hist(x, main="Standardized X", freq=FALSE, xlab="Value")
curve(dnorm(x), add=TRUE, col="Red", lty=3, lwd=2)
y <- (X[,2] - X[,1] - 1) * sqrt(n-m)
hist(y, main="Standardized Y-X", freq=FALSE, xlab="Value")
curve(dnorm(x), add=TRUE, col="Red", lty=3, lwd=2)
par(mfrow=c(1,1))
round(var(cbind(x,y)), 3) # Should be close to the unit matrix