Que explicação intuitiva existe para o teorema do limite central?


144

Em vários contextos diferentes, invocamos o teorema do limite central para justificar qualquer método estatístico que desejamos adotar (por exemplo, aproximar a distribuição binomial de uma distribuição normal). Entendo os detalhes técnicos sobre por que o teorema é verdadeiro, mas agora me ocorreu que realmente não entendo a intuição por trás do teorema do limite central.

Então, qual é a intuição por trás do teorema do limite central?

Explicações leigos seriam ideais. Se algum detalhe técnico for necessário, assuma que eu entendo os conceitos de pdf, cdf, variável aleatória etc., mas não tenho conhecimento de conceitos de convergência, funções características ou qualquer coisa relacionada à teoria das medidas.


8
Uma boa pergunta, embora minha reação imediata, apoiada por minha experiência limitada de ensino disso, seja que o CLT não é inicialmente nada intuitivo para a maioria das pessoas. Se alguma coisa, é contra-intuitivo!
onestop 19/10/10

2
@onestop AMEN! olhando para a distribuição binomial com p = 1/2 conforme n aumenta, mostra que o CLT está à espreita - mas a intuição para isso sempre me escapou.
Ronaf 19/10/10

2
Pergunta semelhante com algumas idéias legais: stats.stackexchange.com/questions/643/…

11
Não é uma explicação, mas esta simulação pode ser útil para entendê-la.
David Lane

Respostas:


119

Peço desculpas antecipadamente pela duração deste post: é com alguma ansiedade que eu o exponho em público, porque leva algum tempo e atenção para ler e, sem dúvida, há erros tipográficos e lapsos expositivos. Mas aqui está para aqueles que estão interessados ​​no tópico fascinante, oferecido na esperança de que o incentive a identificar uma ou mais das muitas partes da CLT para uma elaboração mais detalhada das suas próprias respostas.


A maioria das tentativas de "explicar" o CLT são ilustrações ou apenas reafirmações que afirmam que isso é verdade. Uma explicação realmente penetrante e correta teria que explicar muitas coisas.

Antes de analisar isso mais adiante, vamos esclarecer o que o CLT diz. Como todos sabem, existem versões que variam em sua generalidade. O contexto comum é uma sequência de variáveis ​​aleatórias, que são certos tipos de funções em um espaço de probabilidade comum. Para explicações intuitivas que se mantêm rigorosamente, acho útil pensar em um espaço de probabilidade como uma caixa com objetos distinguíveis. Não importa quais são esses objetos, mas eu os chamarei de "tickets". Fazemos uma "observação" de uma caixa misturando minuciosamente os ingressos e retirando um; esse bilhete constitui a observação. Após gravá-lo para análise posterior, devolvemos o ticket à caixa para que seu conteúdo permaneça inalterado. Uma "variável aleatória" basicamente é um número escrito em cada ticket.

Em 1733, Abraham de Moivre considerou o caso de uma única caixa onde os números nos bilhetes são apenas zeros e uns ("julgamentos de Bernoulli"), com parte de cada número presente. Ele imaginou fazer observações fisicamente independentes , produzindo uma sequência de valores x 1 , x 2 , ... , x n , todos os quais são zero ou um. A soma desses valores, y n = x 1 + x 2 + + x nnx1,x2,,xnyn=x1+x2++xn, é aleatório porque os termos na soma são. Portanto, se pudéssemos repetir esse procedimento várias vezes, várias somas (números inteiros variando de a n ) apareceriam com várias frequências - proporções do total. (Veja os histogramas abaixo.)0n

Agora, seria de esperar - e é verdade - que, para valores muito grandes de , todas as frequências fossem bem pequenas. Se tivéssemos de ser tão ousado (ou tolo) como para tentar "dar um limite" ou "deixe n ir para ", podemos concluir corretamente que todas as frequências reduzir para 0 . Mas se simplesmente desenharmos um histograma das frequências, sem prestar atenção à forma como seus eixos são rotulados, veremos que os histogramas para n grandes começam a ter a mesma aparência: em certo sentido, esses histogramas se aproximam de um limite, mesmo que as frequências todos eles vão a zero.nn0n

Histogramas

Esses histogramas mostram os resultados da repetição do procedimento de obtenção várias vezes. n é o "número de tentativas" nos títulos.ynn

O insight aqui é desenhar o histograma primeiro e rotular seus eixos posteriormente . Com grande, o histograma cobre uma grande variedade de valores centralizados em torno de n / 2 (no eixo horizontal) e um intervalo de valores extremamente pequeno (no eixo vertical), porque as frequências individuais crescem muito pequenas. Ajustar essa curva na região de plotagem exigiu, portanto, uma mudança e redimensionamento do histograma. A descrição matemática disso é que, para cada n , podemos escolher algum valor central m n (não necessariamente único!) Para posicionar o histograma e algum valor de escala s nnn/2nmnsn(não necessariamente exclusivo!) para ajustá-lo aos eixos. Isso pode ser feito matematicamente alterando para z n = ( y n - m n ) / s n .ynzn=(ynmn)/sn

Lembre-se de que um histograma representa frequências por áreas entre ele e o eixo horizontal. A eventual estabilidade desses histogramas para grandes valores de deve, portanto, ser declarada em termos de área. n Portanto, escolha qualquer intervalo de valores que desejar, digamos de a b > a e, à medida que n aumenta, rastreie a área da parte do histograma de z n que mede horizontalmente o intervalo ( a , b ] . O CLT afirma vários coisas:ab>anzn(a,b]

  1. Não importa o que e b sejam,ab se escolhermos as seqüências e s n adequadamente (de uma maneira que não dependa de a ou b ), essa área realmente se aproxima de um limite à medida que n aumenta.mnsnabn

  2. As seqüências e s n podem ser escolhidas de uma maneira que depende apenas de n , da média dos valores na caixa e de alguma medida da dispersão desses valores - mas de nada mais - para que, independentemente do que esteja em Na caixa, o limite é sempre o mesmo. (Essa propriedade de universalidade é incrível.)mnsnn

  3. Especificamente, que a área de limitação é a área sob a curva entreumeb: esta é a fórmula de que histograma limitando universal.y=exp(z2/2)/2πab

    A primeira generalização do CLT acrescenta,

  4. Quando a caixa pode conter números além de zeros e uns, exatamente as mesmas conclusões são válidas (desde que as proporções de números extremamente grandes ou pequenos na caixa não sejam "muito grandes", um critério que possui uma declaração quantitativa precisa e simples) .

    A próxima generalização, e talvez a mais surpreendente, substitui essa única caixa de tickets por uma longa variedade de caixas ordenadas por tempo indeterminado. Cada caixa pode ter números diferentes em seus tickets em diferentes proporções. A observação é feita sorteando um ticket da primeira caixa, x 2 vem da segunda caixa e assim por diante.x1x2

  5. Exatamente as mesmas conclusões são válidas, desde que o conteúdo das caixas "não seja muito diferente" (existem várias caracterizações quantitativas precisas, mas diferentes, do que "não é muito diferente" significa; elas permitem uma quantidade surpreendente de latitude).

Essas cinco afirmações, no mínimo, precisam ser explicadas. Tem mais. Vários aspectos intrigantes da instalação estão implícitos em todas as instruções. Por exemplo,

  • O que há de especial na soma ? Por que não temos teoremas de limite central para outras combinações matemáticas de números, como seu produto ou seu máximo? (Acontece que sim, mas eles não são tão gerais nem sempre têm uma conclusão tão limpa e simples, a menos que possam ser reduzidos ao CLT.) As seqüências de e s n não são únicas, mas são quase único no sentido de que, eventualmente, eles precisam aproximar a expectativa da soma de n tickets e o desvio padrão da soma, respectivamente (que, nas duas primeiras instruções do CLT, é igual a mnsnn vezes o desvio padrão da caixa). n

    O desvio padrão é uma medida da difusão de valores, mas não é de forma alguma o único nem o mais "natural", tanto historicamente quanto para muitas aplicações. (Muitas pessoas escolheriam algo como um desvio absoluto médio da mediana , por exemplo.)

  • Por que o SD aparece de uma maneira tão essencial?

  • Considere a fórmula do histograma limitador: quem esperaria que ele assumisse essa forma? Diz que o logaritmo da densidade de probabilidade é uma função quadrática . Por quê? Existe alguma explicação intuitiva ou clara e convincente para isso?


Confesso que sou incapaz de alcançar o objetivo final de fornecer respostas que sejam simples o suficiente para atender aos critérios desafiadores de Srikant de intuitividade e simplicidade, mas traçei esse pano de fundo na esperança de que outros possam ser inspirados a preencher algumas das muitas lacunas. Eu acho que uma boa demonstração acabará por depender de uma análise elementar de como os valores entre e β n = b s n + m n podem surgir na formação da soma x 1 + x 2 + + x nαn=asn+mnβn=bsn+mnx1+x2++xn. Voltando à versão em caixa única do CLT, o caso de uma distribuição simétrica é mais simples de manusear: sua mediana é igual à sua média, então há 50% de chance de que seja menor que a média da caixa e 50% de chance que x i será maior que sua média. Além disso, quando n é suficientemente grande, os desvios positivos da média devem compensar os desvios negativos da média. (Isso requer alguma justificativa cuidadosa, e não apenas a mão.) Portanto , devemos nos preocupar principalmente em contar os números de desvios positivos e negativos e ter apenas uma preocupação secundária com seus tamanhos.xixin (De todas as coisas que escrevi aqui, isso pode ser mais útil para fornecer alguma intuição sobre o funcionamento da CLT. De fato, as suposições técnicas necessárias para tornar verdadeiras as generalizações da CLT são essencialmente várias maneiras de excluir a possibilidade de que desvios enormes e raros perturbarão o equilíbrio o suficiente para impedir o surgimento do histograma limitador.)

Isso mostra, até certo ponto, por que a primeira generalização do CLT não revela realmente nada que não estivesse na versão de teste original de de Moivre, Bernoulli.

Nesse ponto, parece que não há nada a fazer além de fazer um pouco de matemática: precisamos contar o número de maneiras distintas pelas quais o número de desvios positivos da média pode diferir do número de desvios negativos por qualquer valor predeterminado , onde evidentemente k é um de - n , - n + 2 , , n - 2 , n . Mas, como os erros desaparecem no limite, não precisamos contar com precisão; precisamos apenas aproximar as contagens. Para esse fim, basta saber quekkn,n+2,,n2,n

The number of ways to obtain k positive and nk negative values out of n

equals nk+1k

vezes o número de maneiras de obter k-1 1 positivo e n-k+1 1 valores negativos.

(Esse é um resultado perfeitamente elementar, então não vou me preocupar em anotar a justificativa.) Agora, aproximamos o atacado. A frequência máxima ocorre quando é o mais próximo possível de n / 2 (também elementar). Vamos escrever m = n / 2 . Então, em relação à frequência máxima, a frequência de m + j + 1 desvios positivos ( j 0 ) é estimada pelo produtokn/2m=n/2m+j+1 1j0 0

m+1 1m+1 1mm+2m-j+1 1m+j+1 1

=11/(m+1)1+1/(m+1)12/(m+1)1+2/(m+1)1j/(m+1)1+j/(m+1).

135 anos antes de De Moivre escrever, John Napier inventou logaritmos para simplificar a multiplicação, então vamos tirar proveito disso. Usando a aproximação

log(1x1+x)2x,

descobrimos que o log da frequência relativa é aproximadamente

2/(m+1)4/(m+1)2j/(m+1)=j(j+1)m+1j2m.

Como o erro cumulativo é proporcional a , isso deve funcionar bem, desde que j 4 seja pequeno em relação a m 3 . Isso abrange uma faixa maior de valores de j do que o necessário. (Basta que a aproximação funcione para j somente na ordem de j4/m3j4m3jj que assintoticamente é muito menor do quem 3 / 4 .)mm3/4


Obviamente, muito mais análises desse tipo devem ser apresentadas para justificar as outras afirmações no CLT, mas estou ficando sem tempo, espaço e energia e provavelmente perdi 90% das pessoas que começaram a ler isso de qualquer maneira. Essa aproximação simples, no entanto, sugere como Moivre poderia inicialmente suspeitar que existe uma distribuição limitadora universal, que seu logaritmo é uma função quadrática e que o fator de escala adequado deve ser proporcional a sn (porquej2/m=2j2/n=2(j/n) j2/m=2j2/n=2(j/n)2 É difícil imaginar como essa importante relação quantitativa poderia ser explicada sem invocar algum tipo de informação e raciocínio matemático; qualquer coisa menos deixaria a forma precisa da curva limitante um completo mistério.


5
+1 Levarei algum tempo para digerir sua resposta. Admito que pedir uma intuição para o CLT dentro das restrições que impus pode ser quase impossível.

2
Obrigado por dedicar um tempo para escrever isso, é a exposição mais útil do CLT que eu já vi e também é muito acessível matematicamente.
Jeremy radcliff

11
Sim, bastante denso .... tantas perguntas. Como o primeiro histograma possui 2 barras (houve apenas 1 tentativa!); posso simplesmente ignorar isso? E a convenção geralmente é evitar intervalos horizontais entre as barras de um histograma, certo? (porque, como você diz, a área é importante e a área será calculada em um domínio contínuo (ou seja, sem lacunas))? Então eu vou ignorar as lacunas também ...? Até eu tinha lacunas quando tentei entendê-lo :) #
The Red Pea

11
@TheRed Obrigado por suas perguntas. Eu editei a primeira parte deste post para tornar esses pontos um pouco mais claros.
whuber

4
Ah, sim, confundi "número de tentativas = =" observações "" com "número de vezes (todo esse procedimento) é repetido". Portanto, se um ticket puder ter apenas o valor a dos dois valores, 0 ou 1 , e você observar apenas um ticket, a soma dos valores desses tickets poderá ser apenas uma de duas coisas: 0 ou 1 . Portanto, seu primeiro histograma possui duas barras. Além disso, essas barras são aproximadamente iguais em altura, porque esperamos que 0 e 1 ocorram em proporções iguais. n
The Red Pea

27

A animação mais legal que eu conheço: http://www.ms.uky.edu/~mai/java/stat/GaltonMachine.html

8 camadas horizontais de pinos igualmente espaçados, cada camada escalonada, resulta em um obstáculo no estilo "pachinko / pinball" para bolas que caem através desses pinos.  Cada bola cai no fundo e, à medida que as bolas se acumulam, sua altura se aproxima de um contorno da curva gaussiana.  Isso ilustra que a soma de muitos eventos aleatórios independentes (as camadas) resultará em uma distribuição gaussiana de resultados (a altura da bola empilhada)

As palavras mais simples que li: http://elonen.iki.fi/articles/centrallimit/index.en.html

Se você somar os resultados desses dez arremessos, é provável que o resultado seja mais próximo de 30-40 do que o máximo, 60 (todos os seis) ou, por outro lado, o mínimo, 10 (todos).

A razão para isso é que você pode obter os valores médios de muitas maneiras diferentes dos extremos. Exemplo: ao jogar dois dados: 1 + 6 = 2 + 5 = 3 + 4 = 7, mas apenas 1 + 1 = 2 e apenas 6 + 6 = 12.

Ou seja: mesmo que você tenha um dos seis números igualmente prováveis ​​ao jogar um dado, os extremos são menos prováveis ​​que os valores médios em somas de vários dados.


20

Intuição é uma coisa complicada. É ainda mais complicado com a teoria em nossas mãos amarradas nas costas.

O CLT trata-se de somas de pequenos distúrbios independentes. "Soma" no sentido da amostra significa "minúsculo" no sentido de variação finita (da população) e "distúrbios" no sentido de mais / menos em torno de um valor central (da população).

Para mim, o dispositivo que mais apela diretamente à intuição é o quincunx, ou 'caixa de Galton', consulte a Wikipedia (para 'máquina de feijão'?). de pinos igualmente espaçados. No seu caminho, a bola desvia para a direita e para a esquerda (... aleatoriamente, independentemente) e se acumula na parte inferior. Com o tempo, vemos um belo monte em forma de sino se forma diante de nossos olhos.

O CLT diz a mesma coisa. É uma descrição matemática desse fenômeno (mais precisamente, o quincunce é uma evidência física para a aproximação normal à distribuição binomial). Em termos gerais, a CLT diz que, enquanto nossa população não se comportar excessivamente (ou seja, se as caudas do PDF forem suficientemente finas), a média da amostra (adequadamente dimensionada) se comportará exatamente como a bolinha que bate na cara o quincunce: às vezes cai para a esquerda, às vezes cai para a direita, mas na maioria das vezes cai bem no meio, em forma de sino.

A majestade da CLT (para mim) é que a forma da população subjacente é irrelevante. A forma desempenha apenas um papel na medida em que delega o tempo que precisamos esperar (no sentido do tamanho da amostra).


17

Uma observação relativa ao CLT pode ser a seguinte. Quando você tem uma soma de muitos componentes aleatórios, se um for "menor que o habitual", isso é compensado principalmente por alguns dos outros componentes serem "maiores que o habitual" . Em outras palavras, desvios negativos e desvios positivos do componente significam cancelamento um do outro na soma. Pessoalmente, não tenho uma intuição clara por que exatamente os desvios restantes formam uma distribuição que parece cada vez mais normal quanto mais termos você tiver.

S=X1 1+X2+...+Xn

Existem muitas versões do CLT, algumas mais fortes que outras, algumas com condições relaxadas, como uma dependência moderada entre os termos e / ou distribuições não idênticas para os termos. No mais simples-para-provar versões do CLT, a prova é geralmente baseada na função de momento de geração (ou de Laplace-Stieltjes transformar ou alguma outra transformação adequada da densidade) da soma . Escrever isso como uma expansão de Taylor e manter apenas o termo mais dominante fornece a função geradora de momento da distribuição normal. Então, para mim, pessoalmente, a normalidade é algo que se segue de um monte de equações e eu não posso fornecer outra intuição além disso.S

Deve-se notar, no entanto, que a distribuição da soma nunca é realmente normalmente distribuída, nem o CLT afirma que seria. Se for finito, ainda há alguma distância da distribuição normal e se n = a média e a variância também são infinitas. No último caso, você pode calcular a média da soma infinita, mas obtém um número determinístico sem qualquer variação, que dificilmente poderia ser rotulado como "normalmente distribuído".nn=

Isso pode causar problemas nas aplicações práticas do CLT. Normalmente, se você estiver interessado na distribuição de perto de seu centro, o CLT funciona bem. No entanto, a convergência para o normal não é uniforme em todos os lugares e quanto mais você se afasta do centro, mais termos você precisa para ter uma aproximação razoável.S/n

Com toda a "santidade" do Teorema Central dos Limites nas estatísticas, suas limitações são frequentemente ignoradas com muita facilidade. Abaixo, mostro dois slides do meu curso, enfatizando que o CLT falha completamente nos rabos, em qualquer caso de uso prático. Infelizmente, muitas pessoas usam especificamente o CLT para estimar as probabilidades da cauda, ​​consciente ou não.

insira a descrição da imagem aqui insira a descrição da imagem aqui


5
Este é um ótimo material e conselhos sábios. Infelizmente, não posso aprová-lo, porque as afirmações em "Essa normalidade é um artefato matemático e acho que não é útil procurar por uma verdade ou intuição mais profunda por trás dele" são profundamente preocupantes. Eles parecem sugerir que (1) não devemos confiar na matemática para nos ajudar teoricamente e (2) não há sentido em entender a matemática em primeiro lugar. Espero que outros posts neste tópico já sejam um longo caminho para refutar a segunda afirmação. O primeiro é tão auto-inconsistente que dificilmente precisa de mais análises.
whuber

2
@whuber. Você está certo, talvez eu esteja fora da minha liga. Eu vou editar.
StijnDeVuyst 22/03

3
Obrigado por reconsiderar a parte problemática e um grande +1 pelo resto.
whuber

7

Essa resposta espera fornecer um significado intuitivo do teorema do limite central, usando técnicas simples de cálculo (expansão de Taylor na ordem 3). Aqui está o esboço:

  1. O que o CLT diz
  2. Uma prova intuitiva do CLT usando cálculo simples
  3. Por que a distribuição normal?

Mencionaremos a distribuição normal no final; porque o fato de a distribuição normal eventualmente surgir não tem muita intuição.

1. O que o teorema do limite central diz? Várias versões do CLT

Existem várias versões euivalentes do CLT. A instrução do CLT diz que, para qualquer x real e qualquer sequência de variáveis ​​aleatórias independentes X1 1,,Xn com média zero e variância 1, Para entender o que éuniversaleintuitivosobre o CLT, vamos esquecer o limite por um momento. A declaração acima diz que seX1. ,,Xn eZ1,,Znsão duas seqüências de variáveis ​​aleatórias independentes, cada uma com média zero e variância 1, então E[f(X1++Xn

P(X1 1++Xnnx)n+-xe-t2/22πdt.
X1 1.,...,XnZ1 1,...,Zn para cada função indicadorafdo formulário, para algunsxreais fixos, f(t)={1 se t<x0 se tx. A exibição anterior representa o fato de que o limite é o mesmo, independentemente das distribuições particulares deX1,,XneZ1,,Zn
E[f(X1 1++Xnn)]-E[f(Z1 1++Znn)]n+0 0
fx
f(t)={1 if t<x0 if tx.
X1,,XnZ1,,Zn, desde que as variáveis ​​aleatórias sejam independentes com média zero, variância um.

Algumas outras versões do CLT mencionam a classe de funções Lipschtiz que são limitadas por 1; algumas outras versões do CLT mencionam a classe de funções suaves com derivada limitada da ordem k . Considere duas seqüências X1,,Xn e Z1,,Zn como acima, e para alguma função f , o resultado da convergência (CONV)

(CONV)E[f(X1++Xnn)]E[f(Z1++Znn)]n+0

É possível estabelecer a equivalência ("se e somente se") entre as seguintes instruções:

  1. ff(t)=1t<xf(t)=0txx
  2. f:RR
  3. C
  4. fsupxR|f(x)|1

Cada um dos 4 pontos acima diz que a convergência vale para uma grande classe de funções. Por um argumento de aproximação técnica, pode-se mostrar que os quatro pontos acima são equivalentes, remetemos o leitor ao capítulo 7, página 77 do livro de David Pollard um guia do usuário para medir probabilidades teóricas das quais essa resposta é altamente inspirada.

Nossa suposição para o restante desta resposta ...

supxR|f(x)|CC>0E[|Xi|3]E[|Zi|3]

E[f(X1++Xnn)]X1 1,...,Xn

X1 1,...,XnZ1 1,...,Zn duas seqüências de variáveis ​​aleatórias independentes, cada uma com média 0 e variância 1 e terceiro momento finito.

XEuZEuW=Z1 1++Zn-1 1h(x)=f(x/n)

h(Z1 1++Zn-1 1+Xn)=h(W)+Xnh(W)+Xn2h(W)2+Xn3/h(Mn)6h(Z1 1++Zn-1 1+Zn)=h(W)+Znh(W)+Zn2h(W)2+Zn3h(Mn)6
MnMnXnWE[Xnh(W)]=E[Xn]E[h(W)]=0

(C/6)E[|Xn|3+|Zn|3](n)3.
Cf(n)3h(t)=f(t/n)/(n)3XnZn

Xn1Zn1W~=Z1+Z2++Zn2+Xn

h(Z1++Zn2+Xn1+Xn)=h(W~)+Xn1h(W~)+Xn12h(W~)2+Xn13/h(M~n)6h(Z1++Zn2+Zn1+Xn)=h(W~)+Zn1h(W~)+Zn12h(W~)2+Zn13/h(M~n)6.
Zn1W~Xn-1 1W~

(C/6)E[|Xn-1 1|3+|Zn-1 1|3](n)3.
ZEuXEun
|E[f(X1 1++Xnn)]-E[f(Z1 1++Znn)]|n(C/6)maxEu=1 1,...,nE[|XEu|3+|ZEu|3](n)3.
nX1 1,...,XnZ1 1,...,ZnXEuZEuO(1 1/(n)3)XEuZEuO(1/n)

E[f(X1++Xnn)]X1,,XnE[Xi]=E[Zi]=0,E[Zi2]=E[Xi2]=1

3. Por que a distribuição normal?

E[f(X1++Xnn)]XiO(1/n)

E[f(X1++Xnn)]

X1,,Xn(X1++Xn)/n

N(0,1)Z1,,ZnN(0,1)Z1++ZnnN(0,1)nZN(0,1)

E[f(Z1++Znn)]=E[f(Z)],
X1,,XnE[Xi]=0,E[Xi2]=1

|E[f(X1++Xnn)]E[f(Z)|supxR|f(x)|maxi=1,,nE[|Xi|3+|Z|3]6n.

Você parece estar afirmando uma lei de grandes números em vez da CLT.
whuber

11
E[f((X1 1+...+Xn)/n)]E[f(Z)]ZN(0,1)f

2
Eu vejo o que você quer dizer. O que me dá uma pausa é que sua afirmação diz respeito apenas a expectativas e não a distribuições, enquanto o CLT tira conclusões sobre uma distribuição limitadora. A equivalência entre os dois pode não ser imediatamente evidente para muitos. Posso sugerir, então, que você forneça uma conexão explícita entre sua declaração e as declarações usuais do CLT em termos de limitação de distribuições? (+1 a propósito: obrigado por elaborar esse argumento.)
whuber

1

Desisti de tentar criar uma versão intuitiva e fiz algumas simulações. Eu tenho um que apresenta uma simulação de um Quincunx e outros que fazem coisas como mostrar como uma distribuição de tempo de reação bruta distorcida se tornará normal se você coletar RTs suficientes por sujeito. Acho que eles ajudam, mas são novos na minha turma este ano e ainda não classifiquei o primeiro teste.

Uma coisa que eu pensei que era boa era poder mostrar a lei de grandes números também. Eu poderia mostrar como as coisas são variáveis ​​com amostras pequenas e depois mostrar como elas se estabilizam com amostras grandes. Também faço várias outras demonstrações de grande número. Eu posso mostrar a interação no Quincunx entre o número de processos aleatórios e o número de amostras.

(Acontece que não poder usar giz ou quadro branco na minha classe pode ter sido uma bênção)


Olá John: prazer em vê-lo de volta com este post após quase nove anos! Seria interessante ler sobre as experiências que você teve nesse meio tempo com o uso de simulações para ensinar a idéia do CLT e do LLNs.
whuber

Parei de ministrar aquela aula um ano depois, mas o instrutor subsequente entendeu a ideia da simulação. Na verdade, ele leva muito mais longe e desenvolveu uma sequência de aplicativos brilhantes e faz os alunos brincarem com simulações para muitas coisas na classe de 250 pessoas. Tanto quanto eu posso dizer, ensinando a classe alta, os alunos parecem tirar muito proveito disso. A diferença entre seus alunos e os de aulas equivalentes é notável. (mas, é claro, existem muitas variáveis ​​não controladas)
João

Obrigado John. É tão incomum receber um feedback anedótico sobre o desempenho duradouro dos alunos após o término de uma aula que eu acho até essas informações limitadas de interesse.
whuber

-8

Quando você adiciona muitos histogramas de distribuições aleatórias juntos, mantém a forma de distribuição normal porque todos os histogramas individuais já têm essa forma ou você obtém essa forma porque as flutuações nos histogramas individuais tendem a se anular se você adicionar um valor grande. número de histogramas. Um histograma de uma distribuição aleatória de uma variável já está aproximadamente distribuído de uma maneira que as pessoas começaram a chamar de distribuição normal porque é muito comum e esse é um microcosmo do teorema do limite central.

Esta não é a história toda, mas acho que é a mais intuitiva possível.


2
Sua descrição de uma "distribuição normal" soa como uma versão discreta da dupla exponencial, que nem sequer é remotamente como uma distribuição normal gaussiana (exceto na medida em que ambas são unimodais e simétricas). O histograma de lançamentos de moedas não possui barras que diminuem em um fator de2com cada passo! Isso sugere que pode haver algumas dificuldades ocultas nessa explicação que foram ocultadas por um apelo à "intuição".
whuber

5
Esta resposta é principalmente absurda. Nenhum número de lançamentos de uma moeda justa resultará em uma distribuição do número de caras com probabilidades1 18,1 14,1 12,1 14,1 18; de fato, essa nem é uma função de massa de probabilidade! O número de cabeças seguidas também não tem nada a ver com a questão.
precisa saber é o seguinte
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.