Confuso sobre o intervalo de confiança

Estou confuso sobre o conceito de intervalo de confiança. Especificamente, assumir que existe uma variável Gaussiana $X \sim N(\mu, \sigma)$ com $\sigma$ conhecido, e estou interessado no limite inferior $\mu_L$ da média com $95\%$ de nível de confiança.

Farei o experimento por $5$ vezes e observarei $X_1$ , $X_2$ , $X_3$ , $X_4$ , $X_5$ .

Opção 1: trato cada amostra separadamente e posso calcular $\mu_L = X_i - \sigma z$ para cada $X_i$ . E então eu acho que há alguma maneira (não sei como) para calcular o real limite inferior destas 5 $\mu_L$ 's.

Opção 2: Por outro lado, se eu tomar $T = (X_1+X_2+X_3+X_4+X_5)/5$ , eu posso calcular $\mu_L = T - \sigma/\sqrt{5}z$ . (assumindo que $T$ é normal, também podemos usar t-stat.)

Existe outro método além da opção 2 para calcular um limite inferior com base nas $5$ amostras? E para a opção 1, existe uma maneira de calcular o limite inferior com base nos 5 limites inferiores calculados?

confidence-interval

— calbear
fonte

Essa é uma ótima pergunta, porque explora a possibilidade de procedimentos alternativos e nos pede que pensemos sobre por que e como um procedimento pode ser superior a outro.

A resposta curta é que existem infinitas maneiras de conceber um procedimento para obter um limite de confiança mais baixo para a média, mas algumas são melhores e outras piores (em um sentido significativo e bem definido). A opção 2 é um excelente procedimento, porque uma pessoa que a utiliza precisaria coletar menos da metade dos dados que uma pessoa que usa a opção 1 para obter resultados de qualidade comparável. Metade da quantidade de dados normalmente significa metade do orçamento e metade do tempo; portanto, estamos falando de uma diferença substancial e economicamente importante. Isso fornece uma demonstração concreta do valor da teoria estatística.

Em vez de refazer a teoria, da qual existem muitas excelentes contas de livros didáticos, vamos explorar rapidamente três procedimentos de limite de confiança inferior (LCL) para variáveis normais independentes de desvio padrão conhecido. Escolhi três naturais e promissores sugeridos pela pergunta. Cada um deles é determinado pelo nível de confiança desejado : $n$ $1-\alpha$

$t_{\min} = \min(X_1, X_2, \ldots, X_n) - k^{\min}_{\alpha, n, \sigma} \sigma$ $k^{\min}_{\alpha, n, \sigma}$ $t_{\min}$ $\mu$ $\alpha$ $\Pr(t_{\min} \gt \mu) = \alpha$
Opção 1b, o procedimento "max" . O limite inferior de confiança é definido igual a . O valor do número é determinado para que a chance de exceder a média verdadeira seja apenas ; isto é, . $t_{\max} = \max(X_1, X_2, \ldots, X_n) - k^{\max}_{\alpha, n, \sigma} \sigma$ $k^{\max}_{\alpha, n, \sigma}$ $t_{\max}$ $\mu$ $\alpha$ $\Pr(t_{\max} \gt \mu) = \alpha$
Opção 2, o procedimento "médio" . O limite inferior de confiança é definido como . O valor do número é determinado para que a chance de que exceda a verdadeira média seja apenas ; isto é, . $t_\text{mean} = \text{mean}(X_1, X_2, \ldots, X_n) - k^\text{mean}_{\alpha, n, \sigma} \sigma$ $k^\text{mean}_{\alpha, n, \sigma}$ $t_\text{mean}$ $\mu$ $\alpha$ $\Pr(t_\text{mean} \gt \mu) = \alpha$

Como é sabido, onde ; é a função de probabilidade cumulativa da distribuição normal padrão. Essa é a fórmula citada na pergunta. Uma abreviação matemática é $k^\text{mean}_{\alpha, n, \sigma} = z_\alpha/\sqrt{n}$ $\Phi(z_\alpha) = 1-\alpha$ $\Phi$

$k^\text{mean}_{\alpha, n, \sigma} = \Phi^{-1}(1-\alpha)/\sqrt{n}.$

As fórmulas para os procedimentos mínimo e máximo são menos conhecidas, mas fáceis de determinar:

$k^\text{min}_{\alpha,n,\sigma} = \Phi^{-1}(1-\alpha^{1/n})$ .
$k^\text{max}_{\alpha, n, \sigma} = \Phi^{-1}((1-\alpha)^{1/n})$ .

Por meio de uma simulação, podemos ver que as três fórmulas funcionam. O Rcódigo a seguir conduz a experiência em n.trialsmomentos separados e relata todos os três LCLs para cada avaliação:

simulate <- function(n.trials=100, alpha=.05, n=5) {
  z.min <- qnorm(1-alpha^(1/n))
  z.mean <- qnorm(1-alpha) / sqrt(n)
  z.max <- qnorm((1-alpha)^(1/n))
  f <- function() {
    x <- rnorm(n); 
    c(max=max(x) - z.max, min=min(x) - z.min, mean=mean(x) - z.mean)
  }    
  replicate(n.trials, f())
}

(O código não se preocupa em trabalhar com distribuições normais gerais: como somos livres para escolher as unidades de medida e o zero da escala de medida, basta estudar o caso , É por isso que nenhuma das fórmulas para os vários realmente depende de .) $\mu=0$ $\sigma=1$ $k^*_{\alpha,n,\sigma}$ $\sigma$

10.000 ensaios fornecerão precisão suficiente. Vamos executar a simulação e calcular a frequência com que cada procedimento falha em produzir um limite de confiança menor que a média real:

set.seed(17)
sim <- simulate(10000, alpha=.05, n=5)
apply(sim > 0, 1, mean)

A saída é

   max    min   mean 
0.0515 0.0527 0.0520

Essas frequências são próximas o suficiente do valor estipulado que possamos concluir que os três procedimentos funcionam como anunciados: cada um deles produz um limite de confiança 95% menor para a média. $\alpha=.05$

(Se você está preocupado com o fato de essas frequências diferirem ligeiramente de , você pode executar mais tentativas. Com um milhão de tentativas, elas se aproximam ainda mais de : . $.05$ $.05$ $(0.050547, 0.049877, 0.050274)$

No entanto, uma coisa que gostaríamos de qualquer procedimento LCL é que não apenas deveria estar correto a proporção pretendida de tempo, mas também deveria tender a estar quase correto. Por exemplo, imagine um estatístico (hipotético) que, em virtude de uma profunda sensibilidade religiosa, possa consultar o oráculo Delphic (de Apollo) em vez de coletar os dados e fazer um cálculo LCL. Quando ela pede a Deus um LCL de 95%, o deus apenas adivinha o verdadeiro meio e diz isso a ela - afinal, ele é perfeito. Mas, como o deus não deseja compartilhar totalmente suas habilidades com a humanidade (que deve permanecer falível), em 5% das vezes ele dará uma LCL que é $X_1, X_2, \ldots, X_n$ $100\sigma$ muito alto. Esse procedimento Delphic também é um LCL de 95% - mas seria assustador de usar na prática devido ao risco de produzir um limite realmente horrível.

Podemos avaliar a precisão de nossos três procedimentos de LCL. Uma boa maneira é observar suas distribuições de amostragem: equivalentemente, histogramas de muitos valores simulados também servirão. Aqui estão eles. Primeiro, porém, o código para produzi-los:

dx <- -min(sim)/12
breaks <- seq(from=min(sim), to=max(sim)+dx, by=dx)
par(mfcol=c(1,3))
tmp <- sapply(c("min", "max", "mean"), function(s) {
  hist(sim[s,], breaks=breaks, col="#70C0E0", 
       main=paste("Histogram of", s, "procedure"), 
       yaxt="n", ylab="", xlab="LCL");
  hist(sim[s, sim[s,] > 0], breaks=breaks, col="Red", add=TRUE)
})

Histogramas

Eles são mostrados em eixos x idênticos (mas eixos verticais ligeiramente diferentes). Estamos interessados em

As partes vermelhas à direita de cujas áreas representam a frequência com que os procedimentos falham em subestimar a média - são praticamente iguais à quantidade desejada, . (Nós já tínhamos confirmado isso numericamente.) $0$ $\alpha=.05$
Os spreads dos resultados da simulação. Evidentemente, o histograma mais à direita é mais estreito que os outros dois: descreve um procedimento que realmente subestima a média (igual a ) em % das vezes, mas mesmo quando o faz, essa subestimação está quase sempre dentro de do verdadeira média. Os outros dois histogramas têm propensão a subestimar a verdadeira média um pouco mais, até cerca de muito baixo. Além disso, quando superestimam a média verdadeira, tendem a superestimá-la por mais que o procedimento mais à direita. Essas qualidades as tornam inferiores ao histograma mais à direita. $0$ $95$ $2 \sigma$ $3\sigma$

O histograma mais à direita descreve a opção 2, o procedimento LCL convencional.

Uma medida desses spreads é o desvio padrão dos resultados da simulação:

> apply(sim, 1, sd)
     max      min     mean 
0.673834 0.677219 0.453829

Esses números nos dizem que os procedimentos max e min têm spreads iguais (de cerca de ) e o procedimento comum, médio , tem apenas cerca de dois terços do spread (de cerca de ). Isso confirma a evidência de nossos olhos. $0.68$ $0.45$

Os quadrados dos desvios padrão são as variações, iguais a , e , respectivamente. As variações podem estar relacionadas à quantidade de dados : se um analista recomendar o procedimento máximo (ou mínimo ), para atingir o spread reduzido exibido pelo procedimento usual, o cliente precisará obter vezes mais dados - mais que o dobro. Em outras palavras, usando a Opção 1, você pagaria mais do que o dobro por suas informações do que usando a Opção 2. $0.45$ $0.45$ $0.20$ $0.45/0.21$

— whuber
fonte

Você nunca deixa de me surpreender.

— Momo

+1 @whuber Esta é uma bela ilustração. Ao descrever os intervalos de confiança da inicialização, Efron fala sobre precisão e correção. A precisão é que o verdadeiro nível de confiança do intervalo está próximo do valor anunciado. Seus três exemplos são precisos. A correção se refere ao melhor. Para um intervalo de confiança nos dois lados, isso significa um preciso com a menor largura (o intervalo ou o limite com base na média do seu caso). Seu exemplo é interessante porque os três métodos são pelo menos um pouco competitivos.

— Michael R. Chernick

A opção 1 dos POs não está perto de ser competitiva pelas razões que dei em minha resposta.

— Michael R. Chernick

@ Michael Concordo que sua interpretação da opção 1 não é competitiva. O que achei interessante - e explorei aqui - é que existem algumas interpretações mais viáveis de como alguém pode "calcular o limite inferior real" de cinco diferentes, dois dos quais examinei aqui. Eu provavelmente deveria ter examinado de perto também uma opção "mediana": não será terrivelmente inferior ao cálculo usual (cerca de 40% menos eficiente).

— whuber

A primeira opção não leva em consideração a variação reduzida obtida da amostra. A primeira opção fornece cinco limites de confiança inferiores a 95% para a média com base em uma amostra do tamanho 1 em cada caso. Combiná-los pela média não cria um limite que você possa interpretar como um limite inferior de 95%. Ninguém faria isso. A segunda opção é o que é feito. A média das cinco observações independentes tem uma variação menor por um fator de 6 do que a variação para uma única amostra. Portanto, fornece um limite inferior muito melhor do que qualquer um dos cinco que você calculou da primeira maneira.

Além disso, se o X puder ser considerado normal, então T será normal. $_i$

— Michael R. Chernick
fonte