Como o teorema do limite central pode valer para distribuições que têm limites para a variável aleatória?

10

Eu sempre discordei, e nunca recebi uma boa resposta, de como é possível que o teorema do limite central - a versão clássica em que a distribuição da amostra se aproxima da normalidade - possa ser aplicado para dizer uma distribuição de Poisson ou Gama, em que . Ou, nesse caso, qualquer outra distribuição para a qual , ou talvez . $P(x<0)=0$ $\exists X:X \neq -\infty ,F(X)=0$ $\exists X:X \neq \infty, 1-F(X)=0$

Como exemplo, dada uma distribuição Gamma, como o número de amostras , , , para alguns . Mas se , . Simplesmente nunca, NUNCA haverá um . Isso me sugere que a distribuição de não pode ser, nem se aproximar, da normalidade porque deve necessariamente ser , , que não atende aos requisitos de uma distribuição normal, onde . $n \rightarrow \infty$ $P( \bar{X} = \alpha) \rightarrow 1$ $\forall \alpha \geq 0$ $\bar{X}_i$ $\alpha<0$ $P(\bar{X}=\alpha)=0$ $\bar{X}_i<0$ $\bar{X}$ $f(\bar{X})$ $0$ $\forall \bar{X}<0$ $f(y)>0, \forall y \in R$

Eu me sentiria muito melhor com a vida e qualquer coisa baseada no CLT se alguém pudesse me ajudar a entender para onde minha lógica se desviava.

mean sample central-limit-theorem

— PeludoPotatoGato
fonte

6

A formulação original do CLT aplicada à variável Bernoulli : o exemplo com os limites mais rigorosos possíveis! Por que não, então, considere esse caso específico em sua busca pelo erro na lógica. Se a resposta não se tornar imediatamente aparente (dica: pense no que significa a padronização), talvez minha conta em stats.stackexchange.com/questions/3734/… sugira algumas idéias.

— whuber

4

Talvez ajude dar uma olhada no que realmente diz uma versão básica do teorema do limite central e, a partir daí, considere como são os limites no meio padronizado.

— Glen_b -Reinstala Monica

14

Essa é uma excelente pergunta, pois mostra que você está pensando nos aspectos intuitivos dos teoremas que está aprendendo. Isso coloca você à frente da maioria dos estudantes que aprendem o CLT. Aqui, tentarei fornecer uma explicação de como é possível que o CLT retenha variáveis aleatórias com suporte restrito.

O teorema clássico do limite central se aplica a qualquer sequência consiste em variáveis aleatórias independentes e identicamente distribuídas com média arbitrária e finito variação diferente de zero . Agora, suponha que você tenha uma sequência desse tipo, e eles sejam delimitados por e, portanto, seu suporte não cobre toda a linha real. $X_1, X_2, X_3, ... \sim \text{IID Dist}(\mu, \sigma^2)$ $\mu$ $0 < \sigma^2 < \infty$ $x_{\text{min}} \leqslant X_i \leqslant x_{\text{max}}$

O teorema do limite central refere-se à distribuição da média da amostra , e do suporte restrito às variáveis aleatórias subjacentes em Na sequência, essa estatística também deve obedecer aos limites . Assim, a trama engrossa - a média da amostra que é o assunto do teorema também é limitada! Como o CLT pode aguentar se for esse o caso? $\bar{X}_n \equiv \tfrac{1}{n} \sum_{i=1}^n X_i$ $x_{\text{min}} \leqslant \bar{X}_n \leqslant x_{\text{max}}$

Teorema do Limite Central (CLT): Permitindo que seja a função de distribuição normal padrão, temos: $\Phi$

$lim_{n \to \infty} P (\frac{{\bar{X}}_{n} - μ}{σ / \sqrt{n}} ⩽ z) = Φ (z) .$ $\lim_{n \rightarrow \infty} \mathbb{P} \Big( \frac{\bar{X}_n - \mu}{\sigma / \sqrt{n}} \leqslant z \Big) = \Phi (z).$

Aproximação decorrente do CLT: Para grande , temos a distribuição aproximada : $n$

${\bar{X}}_{n} \sim N (μ, \frac{σ^{2}}{n}) .$ $\bar{X}_n \sim \text{N} \Big( \mu, \frac{\sigma^2}{n} \Big).$

Seu problema deriva do fato de que a aproximação distributiva resultante desse teorema aproxima uma distribuição com suporte limitado por outro com suporte ilimitado e, portanto, não pode estar correta. Você está certo sobre isso - a aproximação distributiva para grande é apenas uma aproximação e, de fato, especifica incorretamente a probabilidade de que a média da amostra esteja fora de seus limites (fornecendo essa probabilidade positiva). $n$

No entanto, o CLT não é uma afirmação sobre uma aproximação distributiva para finito . Trata-se da distribuição limitadora da média da amostra padronizada . Os limites dessa quantidade são: $n$

z_{min} = \frac{x_{min} - μ}{σ / \sqrt{n}} ⩽ \frac{{\bar{X}}_{n} - μ}{σ / \sqrt{n}} ⩽ \frac{x_{max} - μ}{σ / \sqrt{n}} = z_{max} .

$z_{\text{min}} = \frac{x_{\text{min}} - \mu}{\sigma / \sqrt{n}} \leqslant \frac{\bar{X}_n - \mu}{\sigma / \sqrt{n}} \leqslant \frac{x_{\text{max}} - \mu}{\sigma / \sqrt{n}} = z_{\text{max}}.$

Agora, como , temos limites e que significa que os limites da amostra padronizada se tornam mais amplos e mais amplo e converge no limite para toda a linha real. (Ou, para ser um pouco mais formal, para qualquer ponto da linha real, os limites passarão a abranger esse ponto para um número suficientemente grande de .) Uma conseqüência disso é que a probabilidade atribuída às partes fora dos limites pela normalidade a distribuição converge para zero como . $n \rightarrow \infty$ $z_{\text{min}} \rightarrow - \infty$ $z_{\text{max}} \rightarrow \infty$ $n$ $n \rightarrow \infty$

Aqui chegamos ao cerne da questão sobre suas dúvidas sobre o CLT. É verdade que, para qualquer finito , uma aproximação normal à distribuição da média da amostra dará probabilidade positiva a subconjuntos de valores que estão fora dos limites do suporte verdadeiro. No entanto, quando assumimos o limite essa probabilidade positiva errônea converge para zero. A aproximação distributiva à média da amostra padronizada converge para a verdadeira distribuição dessa quantidade no limite, mesmo que a aproximação não seja exatamente válida para finito . $n$ $n \rightarrow \infty$ $n$

— Ben - Restabelecer Monica
fonte

3

Sua fonte de confusão deriva de duas fontes:

1) O CLT aplica-se aos meios normalizados da amostra, ou seja:

$Z_n=\frac{S_n/n-\mu}{\sigma/\sqrt{n}}=\frac{S_n-n\mu}{\sigma\sqrt{n}}$ ,

que é centrado em torno de 0, portanto, admite valores negativos com probabilidade positiva. Como um exemplo extremo, se então pode ser negativo para Poisson . De fato, você pode concluir facilmente que, se nunca for negativo, deverá ser constante (portanto ). $n=1$ $\frac{X_1-\mu}{\sigma}$ $X_1$ $Z_n$ $X_i$ $\sigma=0$

2) O CLT para finito é apenas um resultado local em torno da média. Em outras palavras, o fato de que é aproximadamente (o CDF normal), normal tende a ser mais verdadeiro para próximo a 0. Quando não for grande o suficiente, em relação a , isso aproximação quebra. $n$ $P(Z_n\leq x)$ $\phi(x)$ $x$ $n$ $x$

Se você diz, medindo a altura das pessoas, uma aproximação normal padrão pode implicar que a altura negativa tem probabilidade positiva. Isso é falso, já que a maioria dos adultos tem alturas entre 4 e 7 pés; portanto, a aproximação quebraria além desses limites se seu for pequeno. $n$

Como alternativa, se e , serão necessárias muitas realizações de para inferir situações em que é negativo, de modo que seja principalmente positivo, e você pode ( erroneamente) concluem que nunca pode ser negativo. $P(X_i=1)=0.99999$ $P(X_i=-1)=0.00001$ $X_i$ $X_i$ $Z_n$

— Alex R.
fonte