Sumário
Quando você pode assumir pouco ou nada sobre a verdadeira lei das probabilidades e deduzir pouco sobre ela - como é o caso de pequenas amostras de observações -, um par de estatísticas de ordem adequadamente escolhido constituirá um intervalo de confiança para a mediana. Qual ordem de estatística escolher pode ser facilmente encontrada com uma análise rápida da distribuição Binomial . Existem algumas opções a serem feitas na prática: elas são discutidas e ilustradas no final deste post.( n , 1 / 2 )n(n,1/2)
Aliás, a mesma análise pode ser usada para construir intervalos de confiança para qualquer quantil (do qual a mediana, correspondente a , é um exemplo). A distribuição binomial governa a solução nesse caso.q = 50 % ( n , q )qq=50%(n,q)
Introdução
Lembre-se do que significa um intervalo de confiança (IC). A definição é uma amostra aleatória independente com cada regulada pela mesma distribuição . Supõe-se apenas que é um elemento de um conjunto de possíveis distribuições. Cada um deles tem uma mediana . Para qualquer fixo entre e , um IC de nível é um par de funções (também conhecidas como "estatísticas"), e , de modo queX i F F Ω F 1 / 2 α 0 1 α L LX=(X1,X2,…,Xn)XiFFΩF1/2α01αLU
PrF(L(X)≤F1/2≤U(X))≥1−α.
O lado direito é a cobertura da CI para a distribuição .F
Além disso: para que isso seja útil, também preferimos que (1) o menor número de coberturas sobre seja o menor possível e (2) a duração esperada do intervalo, , deve tender a ser curto para todos ou "a maioria" .F∈ΩEF(U(X)−L(X))F∈Ω
Análise
Suponha que não assumamos nada sobre . Ω Nesta situação, ainda podemos explorar as estatísticas da ordem . Esses são os valores específicos na amostra classificada. Para simplificar a notação, vamos classificar a amostra de uma vez por todas, para que
X1≤X2≤⋯≤Xn.
O valor é a estatística de ordem da amostra. Como não assumimos nada sobre , não sabemos nada sobre no início, portanto não podemos deduzir muito sobre os intervalos prováveis entre cada e seu vizinho . No entanto, ainda podemos raciocinar quantitativamente sobre os valores individuais: qual é a chance de não exceder a mediana de ? Para descobrir isso, seja uma variável aleatória governada por e permita queXiithΩFXiXi+1XiFYF
πF=PrF(Y≤F1/2)
ser a chance de que não seja superior a mediana de . Então, quando sabemos (desde ) que nossa amostra não ordenada original de valores deve conter pelo menos valores que não excedam .YFXi≤F1/2X1≤⋯≤Xi≤F1/2niF1/2
Este é um problema binomial. Formalmente, se definirmos a variável aleatória como igual a quando e , caso contrário, o anterior mostra que tem uma distribuição de Bernoulli com o parâmetro . Um "sucesso" consiste em observar um valor igual ou inferior à mediana. Portanto, é dada pela probabilidade binomial associada a menos de sucessos:Z1Y≤F1/20ZπFPr(Xi>F1/2)i
Pr(Xi>F1/2)=∑j=0i−1(nj)πjF(1−πF)n−j.
Você provavelmente notou isso . De fato, para muitas distribuições, os dois valores são iguais: eles diferem apenas quando atribui probabilidade positiva à mediana . Para analisar a diferença, escreva para . Para isso implicaπF≥1/2FF1/2πF=1/2+εε≥02(j−1)≤n
πjF(1−πF)n−j=(1/2+ε)j(1/2−ε)n−j=(1/2+ε)j[(1/2−ε)j(1/2−ε)n−2j]=(1/4−ε2)j(1/2−ε)n−2j≤(1/4)j(1/2)n−2j=2−n.
Consequentemente, quando , podemos nos livrar da dependência da soma de , ao custo de substituir a igualdade por uma desigualdade:2(i−1)≤nF
Pr(Xi>F1/2)≤2−n∑j=0i−1(nj).
Exatamente o mesmo argumento (aplicado pela reversão das estatísticas da ordem) mostra que quando ,2(i+1)≥n
Pr(Xi<F1/2)≤2−n∑j=i+1n(nj).
O lado direito reduz a zero sempre que (no primeiro caso) ou (no segundo). Portanto, sempre é possível encontrar índices para os quaisi≤0i≥nl≤u
Pr(Xl>F1/2 or Xu<F1/2)=Pr(Xl>F1/2)+Pr(Xu<F1/2)≤2−n(∑j=0l−1(nj)+∑j=u+1n(nj)).
Solução
Este é o complemento da condição definidora para um intervalo de confiança e, portanto, equivalente a ele:
Pr(Xl≤F1/2≤Xu)≥2−n∑j=lu(nj).
Ao selecionar para tornar o lado direito pelo menos , teremos encontrado um procedimento de intervalo de confiança cujo nível é pelo menos .l≤u1−α 1−α
Em outras palavras, ao escolher esses índices e , configurando e , o intervalo será um IC para a mediana com cobertura de pelo menos . Você pode calcular sua cobertura real em termos de probabilidades binomiais. Essa cobertura será alcançada para qualquer distribuição que atribua probabilidade zero a (que inclui todas as distribuições contínuas). Será excedido por qualquer que atribua probabilidade diferente de zero a .luL(X)=XlU(X)=Xu[L(X),U(X)]F1/21−αFF1/2FF1/2
Discussão
Neste ponto, temos algumas opções. O mais comum é tornar os limites simétricos, definindo razoavelmente próximo de . De fato, estipulando , os limites de confiança podem ser encontrados para qualquer com uma pesquisa rápida ou aplicando a função quantil binomial.un+1−lu=n+1−ln
Por exemplo, deixe e (para ilustrar um procedimento de CI). Vamos calcular a parte inferior da distribuição binomial cumulativa com os parâmetros e :n=10α=10%1−α=90%101/2
> i <- 0:5; names(i) <- i; print(pbinom(i, 10, 1/2), digits=1)
0 1 2 3 4 5
0.001 0.011 0.055 0.172 0.377 0.623
(Esse é um R
comando e sua resposta.) Como o valor em , igual a , é próximo a , é tentador aceitar e , por então a cobertura será que está próximo da meta de . Se você precisar obter a cobertura desejada, precisará tomar e ou e , ambos com cobertura .25.5%α/2l=3u=10+1−3=81−0.055−0.055=0.8990%l=2u=8l=3u=91−0.011−.055=0.935
Como verificação, vamos simular muitos conjuntos de dados de qualquer distribuição, calcular esses ICs para os conjuntos de dados e contabilizar a proporção de ICs que cobrem a verdadeira mediana. Este R
exemplo usa uma distribuição Normal:
n <- 10
n.sim <- 1e4
x <- apply(matrix(rnorm(n*n.sim), nrow=n), 2, sort)
covers <- function(x, l, u) mean(x[l, ] <= 0 & x[u, ] >= 0)
c(l3.u8=covers(x,3,8), l2.u8=covers(x,2,8), l3.u9=covers(x,3,9))
A saída é
l3.u8 l2.u8 l3.u9
0.8904 0.9357 0.9319
As coberturas estão de acordo com os valores teóricos.
Como outro exemplo, vamos desenhar amostras de uma distribuição discreta, como um Poisson:
lambda <- 2
x <- apply(matrix(rpois(n*n.sim, 2), nrow=n), 2, sort)
med <- round(lambda + 1/3 - 0.02/lambda)
c(l3.u8=covers(x,3,8), l2.u8=covers(x,2,8), l3.u9=covers(x,3,9))
l3.u8 l2.u8 l3.u9
0.9830 0.9845 0.9964
Desta vez, as coberturas são muito maiores do que o previsto. O motivo é que há uma chance de que um valor aleatório seja igual à mediana. Isso aumenta muito a chance de o IC cobrir a mediana. Isso não é um problema ou um paradoxo. Por definição, a cobertura deve ser pelo menos não importa qual seja a distribuição - mas é possível (como neste caso) que a cobertura para distribuições específicas seja substancialmente maior que .27%1−αF1−α
Aí reside a desvantagem: quando você não assume nada sobre , o IC baseado nas estatísticas de pedidos é o único que você pode construir. A cobertura do seu verdadeiro (mas desconhecido) pode ser um pouco maior do que o esperado. Isso significa que seu CI será maior do que se você tinha feito algumas suposições fortes sobre , limitando as possibilidades de .FFΩF