Respostas:
Esta pergunta, que abrange uma situação comum, merece uma resposta simples e não aproximada. Felizmente, existe um.
Suponha que são valores independentes de uma distribuição desconhecida cujo quantil escreverei . Isso significa que cada tem uma chance de (pelo menos) ser menor ou igual a . Conseqüentemente, o número de menor ou igual a possui uma distribuição binomial . F q th F - 1 ( q ) X i q F - 1 ( q ) X i F - 1 ( q ) ( n , q )
Motivados por essa simples consideração, Gerald Hahn e William Meeker, em seu manual Statistical Intervals (Wiley 1991), escrevem
Um intervalo de confiança conservador de livre de distribuição frente e verso para é obtido ... comoF - 1 ( q ) [ X ( l ) , X ( u ) ]
onde são as estatísticas da ordem da amostra. Eles passam a dizer
Pode-se escolher números inteiros simetricamente (ou quase simetricamente) em torno de e o mais próximo possível, sujeito aos requisitos queq ( n + 1 ) B ( u - 1 ; n , q ) - B ( l - 1 ; n , q ) ≥ 1 - α .
A expressão à esquerda é a chance de uma variável Binomial ter um dos valores . Evidentemente, essa é a chance de o número de valores de dados cair dentro dos mais da distribuição não ser muito pequeno (menor que ) nem muito grande ( ou maior).{ l , l + 1 , … , u - 1 } X i 100 q % l u
Hahn e Meeker seguem com algumas observações úteis, que citarei.
O intervalo anterior é conservador porque o nível de confiança real, fornecido pelo lado esquerdo da Equação , é maior que o valor especificado . ...1 - α
Às vezes, é impossível construir um intervalo estatístico livre de distribuição que tenha pelo menos o nível de confiança desejado. Esse problema é particularmente grave ao estimar percentis na cauda de uma distribuição a partir de uma pequena amostra. ... Em alguns casos, o analista pode lidar com este problema, escolhendo e não simétrico. Outra alternativa pode ser usar um nível de confiança reduzido.u
Vamos trabalhar com um exemplo (também fornecido pela Hahn & Meeker). Eles fornecem um conjunto ordenado de "medidas de um composto de um processo químico" e solicitam um intervalo de confiança de para o percentil . Eles afirmam que e funcionarão.100 ( 1 - α ) = 95 % q = 0,90 l = 85 u = 97
A probabilidade total desse intervalo, conforme mostrado pelas barras azuis na figura, é de : é o mais próximo possível de , mas ainda está acima dele, escolhendo dois pontos de corte e eliminando todas as chances no cauda esquerda e direita que estão além desses pontos de corte.95 %
Aqui estão os dados, mostrados em ordem, deixando de fora dos valores do meio:
O maior é e o maior é . O intervalo, portanto, é .
Vamos reinterpretar isso. Esse procedimento deveria ter pelo menos uma chance de de cobrir o percentil . Se esse percentil realmente exceder , significa que teremos observado ou mais dos valores em nossa amostra que estão abaixo do percentil . Isso é demais. Se esse percentil for menor que , isso significa que teremos observado ou menos valores em nossa amostra abaixo do percentil . Isso é muito pouco. Em qualquer um dos casos - exatamente como indicado pelas barras vermelhas na figura -, seria uma evidência contra o percentil dentro desse intervalo.
Uma maneira de encontrar boas opções de e é a pesquisa de acordo com suas necessidades. Aqui está um método que começa com um intervalo aproximado simétrico e, em seguida, pesquisa variando e em até para encontrar um intervalo com boa cobertura (se possível). É ilustrado com código. Está configurado para verificar a cobertura no exemplo anterior para uma distribuição Normal. Sua saída éR
A cobertura média da simulação foi de 0,9503; a cobertura esperada é 0,9523
O acordo entre simulação e expectativa é excelente.
#
# Near-symmetric distribution-free confidence interval for a quantile `q`.
# Returns indexes into the order statistics.
#
quantile.CI <- function(n, q, alpha=0.05) {
#
# Search over a small range of upper and lower order statistics for the
# closest coverage to 1-alpha (but not less than it, if possible).
#
u <- qbinom(1-alpha/2, n, q) + (-2:2) + 1
l <- qbinom(alpha/2, n, q) + (-2:2)
u[u > n] <- Inf
l[l < 0] <- -Inf
coverage <- outer(l, u, function(a,b) pbinom(b-1,n,q) - pbinom(a-1,n,q))
if (max(coverage) < 1-alpha) i <- which(coverage==max(coverage)) else
i <- which(coverage == min(coverage[coverage >= 1-alpha]))
i <- i[1]
#
# Return the order statistics and the actual coverage.
#
u <- rep(u, each=5)[i]
l <- rep(l, 5)[i]
return(list(Interval=c(l,u), Coverage=coverage[i]))
}
#
# Example: test coverage via simulation.
#
n <- 100 # Sample size
q <- 0.90 # Percentile
#
# You only have to compute the order statistics once for any given (n,q).
#
lu <- quantile.CI(n, q)$Interval
#
# Generate many random samples from a known distribution and compute
# CIs from those samples.
#
set.seed(17)
n.sim <- 1e4
index <- function(x, i) ifelse(i==Inf, Inf, ifelse(i==-Inf, -Inf, x[i]))
sim <- replicate(n.sim, index(sort(rnorm(n)), lu))
#
# Compute the proportion of those intervals that cover the percentile.
#
F.q <- qnorm(q)
covers <- sim[1, ] <= F.q & F.q <= sim[2, ]
#
# Report the result.
#
message("Simulation mean coverage was ", signif(mean(covers), 4),
"; expected coverage is ", signif(quantile.CI(n,q)$Coverage, 4))
Derivação
O -quantile (este é o conceito mais geral que o percentil) de uma variável aleatória é dado por . A contraparte da amostra pode ser escrita como - esse é apenas o quantil da amostra. Estamos interessados na distribuição de:
Primeiro, precisamos da distribuição assintótica do cdf empírico.
Como , você pode usar o teorema do limite central. é uma variável aleatória bernoulli; portanto, a média é e a variação é .
Agora, como inversa é uma função contínua, podemos usar o método delta.
[** O método delta diz que se e é uma função contínua, então **]
No lado esquerdo de (1), pegue e
[** observe que há um pouco de mão na última etapa porque , mas são assintoticamente iguais se for tedioso para mostrar **]
Agora, aplique o método delta mencionado acima.
Como (função inversa teorema)
Em seguida, para construir o intervalo de confiança, precisamos calcular o erro padrão inserindo exemplos de contrapartida de cada um dos termos na variação acima:
Resultado
Então,√
E
Isso exigirá que você estime a densidade de , mas isso deve ser bem direto. Como alternativa, você também pode inicializar o IC facilmente.