Erro de aproximação do intervalo de confiança para a média quando


15

Seja {Xi}i=1n uma família de variáveis ​​aleatórias iid assumindo valores em [0,1] , tendo uma média e variância . Um intervalo de confiança simples para a média, usando sempre que for conhecido, é dado por μσ2σ

P(|X¯μ|>ε)σ2nε21nε2(1).

Além disso, como é distribuído assintoticamente como uma variável aleatória normal padrão, a distribuição normal às vezes é usada para "construir" um intervalo de confiança aproximado.X¯μσ/n


Nos exames estatísticos de respostas de múltipla escolha, eu tive que usar essa aproximação em vez de sempre que . Eu sempre me senti muito desconfortável com isso (mais do que você pode imaginar), pois o erro de aproximação não é quantificado.(1)n30


  • Por que usar a aproximação normal em vez de (1) ?

  • Não quero mais aplicar cegamente a regra n30 . Existem boas referências que podem me apoiar na recusa de fazê-lo e fornecer alternativas apropriadas? ( (1) é um exemplo do que considero uma alternativa apropriada.)

Aqui, enquanto σ e E[|X|3] são desconhecidos, eles são facilmente delimitados.

Observe que minha pergunta é uma solicitação de referência, particularmente sobre intervalos de confiança e, portanto, é diferente das que foram sugeridas como duplicatas parciais aqui e aqui . Não é respondido lá.


2
Você pode ter que melhorar a aproximação encontrada nas referências clássicas e explorar o fato de que o está em ( 0 , 1 ) que, como você notou, fornece informações sobre os momentos. A ferramenta mágica, acredito, será o teorema de Berry-Esseen! Xi(0,1)
Yves

11
com esses limites, a variação não pode ser maior que 0,25, muito melhor que 1, não é?
carlo

Respostas:


3

Por que usar aproximação normal?

É tão simples quanto dizer que é sempre melhor usar mais informações do que menos. A equação (1) usa o teorema de Chebyshev . Observe como ele não usa nenhuma informação sobre o formato da sua distribuição, ou seja, funciona para qualquer distribuição com uma determinada variação. Portanto, se você usar algumas informações sobre o formato da sua distribuição, deverá obter uma melhor aproximação. Se você sabia que sua distribuição é gaussiana, usando esse conhecimento, você obtém uma estimativa melhor.

Como você já está aplicando o teorema do limite central, por que não usar a aproximação gaussiana dos limites? Eles serão melhores, na verdade, mais rígidos (ou mais nítidos), porque essas estimativas são baseadas no conhecimento da forma, que é uma informação adicional.

A regra básica 30 é um mito, que se beneficia do viés de confirmação . Ele continua sendo copiado de um livro para outro. Certa vez, encontrei uma referência sugerindo essa regra em um artigo na década de 1950. Não era nenhum tipo de prova sólida, se bem me lembro. Foi algum tipo de estudo empírico. Basicamente, a única razão pela qual é usada é porque funciona. Você não vê isso violado com muita frequência.

ATUALIZAÇÃO Consulte o artigo de Zachary R. Smith e Craig S. Wells " Teorema do limite central e tamanho da amostra ". Eles apresentam um estudo empírico da convergência para CLT para diferentes tipos de distribuições. O número mágico 30 não funciona em muitos casos, é claro.


+1 Para uma explicação sensata. Mas não existe o risco de usar informações que não estão certas? O CLT não diz nada sobre a distribuição de para um n fixo . X¯n
23417 Olivier

certo, o CLT não diz nada sobre a distribuição da amostra finita, mas também não equações assintóticas. No entanto, inegavelmente eles têm informações úteis, é por isso que os relacionamentos limitantes são usados ​​em todos os lugares. O problema do Chebyshev é que ele é tão amplo que raramente é usado fora da sala de aula. Por exemplo, para um desvio padrão a probabilidade que dá é - informação dificilmente práticos<1/k2=1
Aksakal

No entanto, para assumir os valores 0 ou 1 com igual probabilidade, sua aplicação de Chebyshev é nítida. ;) O problema é que Chebyshev, aplicado a uma média da amostra, nunca permanecerá afiado à medida que n cresce. Xn
Olivier

Eu não sei sobre Smith e papel de Wells, eu tentei reproduzindo-a em R e não conseguiu recuperar suas conclusões ...
Alex Nelson

9

O problema com o uso da desigualdade de Chebyshev para obter um intervalo para o valor verdadeiro é que ele apenas fornece um limite mais baixo para a probabilidade, que além disso é às vezes trivial ou, para não ser trivial, pode fornecer um valor muito amplo. intervalo de confiança. Nós temos

P(|X¯μ|>ε)=1P(X¯εμX¯+ε)

P(X¯εμX¯+ε)11nε2

Vemos que, dependendo também do tamanho da amostra, se diminuirmos "demais" obteremos a resposta trivial "a probabilidade é maior que zero".ε

Além disso, o que obtemos dessa abordagem é uma conclusão da forma "" a probabilidade de cair em [ ˉ X ± ε ] é igual ou maior que ... "μ[X¯±ε]

Mas vamos supor que nós estamos bem com isso, e denotam a probabilidade mínima com a qual estamos confortáveis. Então nós queremospmin

11nε2=pminε=1(1pmin)n

Com amostras pequenas e alta probabilidade mínima desejada, isso pode fornecer um intervalo de confiança insatisfatoriamente amplo. Por exemplo, para e n = 100 , vamos obter £ 0,316 , o que, por exemplo, para a variável tratada pelo PO que é delimitada em [ 0 , 1 ] parece ser demasiado grande para ser útil.pmin=0.9n=100ε.316[0,1]

Mas a abordagem é válida, sem distribuição e, portanto, pode haver casos em que possa ser útil.

Pode-se verificar também a desigualdade Vysochanskij – Petunin mencionada em outra resposta, que vale para distribuições unimodais contínuas e refina a desigualdade de Chebyshev.


Não concordo que um problema com Chebychev seja o de que apenas dê um limite inferior à probabilidade. Em uma configuração sem distribuição, um limite inferior é o melhor que podemos esperar. As perguntas importantes são: Chebychev é afiado? O comprimento do IC de Chebychev é sistematicamente superestimado para um nível fixo ? Eu respondi isso no meu post, de um ponto de vista particular. No entanto, ainda estou tentando entender se Chebychev, por exemplo, sempre deixará de ser nítido, em um sentido mais forte. α
Olivier

O comprimento do IC não está sob estimativa, uma vez que não existe um único comprimento desconhecido, portanto, não tenho certeza do que você quer dizer com o uso da palavra "superestimação" aqui. Métodos diferentes fornecem ICs diferentes, os quais, é claro, podemos tentar avaliar e avaliar.
Alecos Papadopoulos 23/03

Superestimar foi uma má escolha de palavras, obrigado por apontar. Por "sistematicamente superestimado comprimento", quis dizer que o método para obter um IC sempre produz algo maior que o necessário.
23417 Olivier

11
@ Olivier De um modo geral, a desigualdade de Chebyshev é conhecida por ser uma desigualdade frouxa e, portanto, usada mais como uma ferramenta em derivações e provas teóricas do que em trabalhos aplicados.
Alecos Papadopoulos 23/03

2
@ Oliver "De um modo geral" cobre sua qualificação, eu diria.
Alecos Papadopoulos 23/03

7

A resposta curta é que ela pode correr muito mal, mas apenas se uma ou ambas as caudas da distribuição da amostra forem realmente gordas .

Esse código R gera um milhão de conjuntos de 30 variáveis ​​distribuídas gama e leva sua média; pode ser usado para ter uma noção de como é a distribuição amostral da média. Se a aproximação normal funcionar como pretendido, os resultados deverão ser aproximadamente normais com média 1 e variação 1/(30 * shape).

f = function(shape){replicate(1E6, mean(rgamma(30, shape, shape)))}

Quando shapeé 1.0, a distribuição gama se torna uma distribuição exponencial , o que é bastante incomum. No entanto, as partes não-gaussianas são na maioria médias e, portanto, a aproximação gaussiana não é tão ruim:

histogram & density plot

Claramente, existe algum viés, e seria bom evitá-lo quando possível. Mas, honestamente, esse nível de viés provavelmente não será o maior problema enfrentado por um estudo típico.

Dito isto, as coisas podem ficar muito piores. Com f(0.01), o histograma fica assim:

histogram

A transformação de log dos 30 pontos de dados amostrados antes da média ajuda muito, no entanto:

histogram

Em geral, distribuições com caudas longas (em um ou nos dois lados da distribuição) exigirão mais amostras antes que a aproximação gaussiana comece a se tornar confiável. Existem até casos patológicos em que literalmente nunca haverá dados suficientes para a aproximação gaussiana funcionar, mas você provavelmente terá problemas mais sérios nesse caso (porque a distribuição da amostra não tem uma média ou variação bem definida para começar). com).


Acho o experimento muito pertinente e interessante. Não vou aceitar isso como resposta, no entanto, uma vez que não trata do cerne do problema.
Olivier

11
qual é o cerne?
David J. Harris

Sua resposta não fornece uma base rigorosa para uma boa prática estatística. Apenas dá exemplos. Observe também que as variáveis ​​aleatórias que considero são limitadas, alterando muito o que é o pior caso possível.
Olivier

@Glen_b: esta resposta não é tão relevante para a sua versão revisada da pergunta. Devo deixar aqui, ou você recomendaria outra coisa?
David J. Harris

3

Problema com o intervalo de confiança Chebyshev

σ214Var(X)μ(1μ)μ

P(|X¯μ|ε)14nε2.
The problem is that the inequality is, in a certain sense, quite loose when n gets large. An improvement is given by Hoeffding's bound and shown below. However, we can also demonstrate how bad it can get using the Berry-Esseen theorem, pointed out by Yves. Let Xi have a variance 14, the worst possible case. The theorem implies that P(|X¯μ|ε2n)2SF(ε)+8n, where SF is the survival function of the standard normal distribution. In particular, with ε=16, we get SF(16)e58 (according to Scipy), so that essentially
P(|X¯μ|8n)8n+0,()
whereas the Chebyshev inequality implies
P(|X¯μ|8n)1256.
Note that I did not try to optimize the bound given in (), the result here is only of conceptual interest.

Comparing the lengths of the confidence intervals

Consider the (1α)-level confidence interval lengths Z(α,n) and C(α,n) obtained using the normal approximation (σ=12) and the Chebyshev inequality, repectively. It turns out that C(α,n) is a constant times bigger than Z(α,n), independently of n. Precisely, for all n,

C(α,n)=κ(α)Z(α,n),κ(α)=(ISF(α2)α)1,
where ISF is the inverse survival function of the standard normal distribution. I plot below the multiplicative constant.

enter image description here

In particular, the 95% level confidence interval obtained using the Chebyshev inequality is about 2.3 times bigger than the same level confidence interval obtained using the normal approximation.


Using Hoeffding's bound

Hoeffding's bound gives

P(|X¯μ|ε)2e2nε2.
Thus an (1α)-level confidence interval for μ is
(X¯ε,X¯+ε),ε=lnα22n,
of length H(α,n)=2ε. I plot below the lengths of the different confidence intervals (Chebyshev inequality: C; normal approximation (σ=1/2): Z; Hoeffding's inequality: H) for α=0.05.

enter image description here


Very interesting! I have though some corrections to suggest you toghether with a big puzzlement: first, you should take out absolute value from the Hoeffding's unequality definition, it's P(X¯με)e2nε2 or P(|X¯μ|ε)2e2nε2; the second correction is less important, α is generally taken to be 0.05 or lower, while 0.95 is addressed as 1α, it's a bit confusing to see them switched in your post.
carlo

Last and more important: I found your result incredible, so I tried to replicate it in R and I got a completely opposite result: normal approximation gives smaller confidence intervals to me! this is the code I used: curve(sqrt(-log(.025)/2/x), to= 100, col= 'red', xlab= 'n', ylab= 'half interval') #Hoeffding ; curve(qnorm(.975, 0, .5/sqrt(x)), to= 100, add= T, col= 'darkgreen') #normal approximation
carlo

0

let's start with the number 30: it's, as anyone will say, a rule of thumb. but how can we find a number that fits better to our data? It's actually mostly a matter of skewness: even the strangest distribution will fast converge to normal if they are simmetric and continuous, skewed data will be much slower. I remember learning that a binomial distribution can be properly approximated to normal when its variance is greater than 9; for this example it's to be considered that discrete distribution also have the problem that they need great numbers to simulate continuity, but think to this: a simmetric binomial distribution will reach that variance with n = 36, if p = 0.1 instead, n must go up to 100 (variabile trasformation, however, would help a lot)!

If you only want to use variance instead, dropping gaussian approximation, consider Vysochanskij–Petunin inequality over Chebichev's, it needs the assumption of unimodal distribution of the mean, but this is a very safe one with any sample size, I'd say, greater than 2.


Could you add a reference for " Vysochanskij–Petunin inequality "? Never heard of it!
kjetil b halvorsen

wikipedia docet
carlo

Can you express the rate of convergence in terms of the skewdness? Why is a sample size of, you'd say 2, enough for unimodality? How is the Vysochanskij–Petunin inequality an improvement over Chebychev if you need to double or triple the sample size for it to apply?
Olivier

I made a fast google search and I found out that binomial distribution is actually often used to explain different sample size need for skewed data, but I didn't find, and I guess there is no accepted "rate of convergence in terms of the skewdness".
carlo

Vysochanskij–Petunin inequality is more efficent than Chebychev's, so it doesn't need a greater sample at all, but it has some use constraints: first, you have to have a continuous distribution, than, it has to be unimodal (no local modes are allowed). It may seem strange to drop normality assumption to adopt another one, but if your data is not discrete, sample mean should eliminate local modes even with very small samples. Fact is that mean has much of a bell distribution and, also if it can be skewed or have fat tails, it quickly comes to only have one mode.
carlo
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.